El primer modelo de Inteligencia Artificial masivo de la lengua española es en realidad un “conjunto de modelos del lenguaje” o, como lo explican sus desarrolladores en un comunicado: “redes neuronales profundas que han sido entrenadas para adquirir una comprensión de la lengua, su léxico y sus mecanismos para expresar el significado y escribir a nivel experto”.
Se trata de redes que consiguen trabajar con interdependencias cortas y largas y son capaces de entender, no solo conceptos abstractos, sino también el contexto de los mismos.
El primer paso para crear un modelo de la lengua es elaborar un corpus de palabras y frases que será la base sobre la que se entrenará el sistema. Para crear el corpus de MarIA, se utilizó el equivalente a 59.000 gigabytes del archivo web de la Biblioteca Nacional (usando la tecnología del superordenador MareNostrum).
Posteriormente, estos archivos se procesaron para eliminar aquello que no fuera texto bien formado, y se guardaron solamente los textos bien formados en la lengua española. Para su posterior compilación fueron necesarias 6.910.000 horas de procesadores del superordenador MareNostrum y los resultados fueron 201.080.084 documentos limpios que ocupan un total de 570 gigabytes de texto limpio y sin duplicidades.
Según los desarrolladores: “supera en varias órdenes de magnitud el tamaño y la calidad de los corpus disponibles en la actualidad. Se trata de un corpus que enriquecerá el patrimonio digital del español y del propio archivo de la BNE y que podrá servir para múltiples aplicaciones en el futuro, como tener una imagen temporal que permita analizar la evolución de la lengua, comprender la sociedad digital en su conjunto y, por supuesto, el entreno de nuevos modelos”.
Luego de creado el corpus, los investigadores del BSC utilizaron una tecnología de redes neuronales (basada en la arquitectura Transformer), que ha demostrado buenos resultados en el inglés y que se entrenó para aprender a utilizar la lengua. Para realizar este entrenamiento se necesitaron 184.000 horas de procesador y más de 18.000 horas de GPU.
Tras lanzar los modelos generales, el equipo minería de textos del BSC está trabajando en la ampliación del corpus, con nuevas fuentes de archivos que aportarán textos con particularidades diferentes a los que se encuentran en los entornos web, como por ejemplo publicaciones científicas del CSIC. También está prevista la generación de modelos entrenados con textos de diferentes lenguas: castellano, catalán, gallego, euskera, portugués y español de Hispanoamérica.