El proyecto MarIA, el primer sistema de inteligencia artificial masivo y experto en comprender y escribir en lengua española, ha avanzado en su desarrollo y ya puede resumir textos existentes y crear nuevos textos a partir de titulares o de palabras.

Los avances de este sistema de modelos de lengua lanzado hace cinco meses, que fue creado por el Barcelona Supercomputing Center – Centro Nacional de Supercomputación (BSC-CNS) a partir de los archivos web de la Biblioteca Nacional de España (BNE) e impulsado por la Secretaría de Estado de Digitalización e Inteligencia Artificial, han sido puestos de manifiesto este jueves en un acto en la BNE.

Este sistema se ha construido a partir del patrimonio documental digital de la BNE, que rastrea y archiva las webs elaboradas en español y se ha entrenado con el superordenador MareNostrum 4. Y se publica en abierto para que los desarrolladores de aplicaciones, compañías, grupos de investigación y la sociedad en general lo puedan utilizar.

La secretaria de Estado de Digitalización e Inteligencia Artificial, Carme Artigas, ha destacado que con proyectos como este se dan "pasos firmes hacia una inteligencia artificial que piense en español, lo que multiplicará las oportunidades económicas para las empresas y la industria tecnológica española. Porque la lengua es mucho más que un medio de comunicación. Es una proyección de la forma que tenemos de ver el mundo, también en la nueva realidad digital”.

Por su volumen y capacidades, MarIA ha situado a la lengua española en el tercer puesto de los idiomas que disponen de modelos masivos de acceso abierto, después del inglés y el mandarín.

MarIA se ha entrenado con más de 135 mil millones de palabras del archivo web de la Biblioteca Nacional, en la estrategia de España de liderar a nivel mundial el desarrollo de herramientas, tecnologías y aplicaciones para la proyección y uso de la lengua española en los ámbitos de aplicación de la IA, según han destacado en el acto.

Así, el Plan Nacional de Tecnologías del Lenguaje en el que se enmarca este proyecto, tiene como objetivo fomentar el desarrollo del procesamiento del lenguaje natural, la traducción automática y los sistemas conversacionales en lengua española y lenguas cooficiales.

Ana Santos ha destacado que la BNE, como institución responsable del depósito legal electrónico, conserva millones de sitios web, millones de palabras que se repiten en un contexto determinado y que son producto de muchas recolecciones realizadas desde hace años por los equipos de la biblioteca, lo que conforma el gran corpus del español.

Estos archivos son utilizados en este "proyecto pionero, basado en tecnologías de inteligencia artificial, que va a permitir que las máquinas puedan comprender y escribir en lengua española, lo que supone un hito en el campo del procesamiento del lenguaje natural”, ha indicado la directora de la BNE.

Los datos de la Biblioteca Nacional con los que se ha entrenado MarIA están constituidos por más de 135 mil millones de palabras (135.733.450.668, concretamente), que ocupan un total de 570 Gigabytes.

En el acto han participado también Mateo Valero, director del Centro Nacional de Supercomputación; Marta Villegas, responsable del proyecto e investigadora unidad Tex Mining BSC-CNS; Alfonso Valencia, director del departamento de Ciencias de la Vida (BSC-CNS) y Mar Pérez Morillo, directora de la División de Procesos y Servicios Digitales de la BNE.

Congreso de Inteligencia Artificial

El Independiente organiza por cuarto año consecutivo la edición 2021 del Congreso Internacional de Inteligencia Artificial que tendrá lugar el próximo viernes 26 de noviembre en Alicante, en esta ocasión en la sede de Distrito Digital Comunitat Valenciana. Como en años anteriores, este Congreso Internacional ha sido posible gracias al impulso de organismos como Suma Gestión Tributaria, de la Diputación de Alicante, y Distrito Digital de la Generalitat valenciana; además, participan empresas como Telefónica, Banco Sabadell, Huawei e Hidraqua, entre otras.

Tras un período marcado por la pandemia del coronavirus, y que fue el tema a tratar durante el evento del año anterior, durante esta edición las mesas y los expertos que estarán presentes en el congreso debatirán sobre el papel que juega la Unión Europea en la Inteligencia Artificial.