Massively Multilingual Speech (MMS) de Meta puede reconocer más de 4 mil idiomas hablados
A partir del modelo de lenguaje de inteligencia artificial (IA), Massively Multilingual Speech (MMS), Meta puede reconocer más de 4 mil idiomas hablados. Esto es, 40 veces más que cualquier tecnología previamente conocida, y producir audios en mil 100 de ellos.
En un comunicado, la matriz de Facebook resaltó que muchos de los idiomas del mundo están en peligro de desaparecer. Además, las limitaciones de la tecnología actual de generación y reconocimiento de voz sólo acelerarán esta tendencia.
Dice Meta: “Queremos facilitar a las personas el acceso a la información y el uso de dispositivos en su idioma preferido y hoy anunciamos una serie de modelos de IA que podrían ayudarlos a hacer precisamente eso”.
También, hay muchos casos de uso para la tecnología del habla, desde realidad virtual y aumentada hasta los servicios de mensajería, las cuales se pueden usar en el idioma preferido de una persona y pueden entender la voz de todos.
Agregan desde Meta: “Estamos abriendo nuestros modelos y código para que otros en la comunidad de investigación puedan desarrollar nuestro trabajo y ayudar a preservar los idiomas del mundo y acercar el mundo”.
En este modelo, el primer desafío de Meta fue recopilar datos de audio para miles de idiomas porque los conjuntos de datos de voz más grandes que hay cubren 100 idiomas como máximo.
Para superar esto, la compañía recurrió a textos religiosos, como la Biblia, que se han traducido a muchos idiomas diferentes y cuyas traducciones se han estudiado ampliamente para la investigación de traducción de idiomas basada en texto.
“Como parte del proyecto MMS creamos un conjunto de datos de lecturas del Nuevo Testamento en más de mil 100 idiomas que proporcionó un promedio de 32 horas de datos por idioma”. Señalan.
Así, al considerar grabaciones sin etiquetas de otras lecturas religiosas cristianas, Meta logró aumentar la cantidad de idiomas disponibles a más de 4 mil.
A futuro, Meta pretende aumentar la cobertura de MMS para admitir incluso más idiomas y también abordar el desafío de manejar dialectos, que a menudo es difícil para la tecnología de voz existente.