Meta lanza Voicebox, la inteligencia artificial que ayudaría en la edición de audio
Voicebox es un modelo generativo de inteligencia artificial (IA) que puede ayudar con la edición, sampling y estilización de audio. Esta tecnología, lanzada y creada por Meta -la empresa matriz de Facebook- , podrá utilizarse para ayudar a los creadores de contenido, editores de video y sonidistas a mejorar sus pistas de audio.
Además, la inteligencia artificial de Meta podría ayudar a las personas con discapacidad visual a escuchar los mensajes enviados por sus amigos, con sus mismas voces. También podría ayudar a las personas a comunicarse en idiomas extranjeros sin tener conocimiento de estos, pero utilizando su propia voz.
De acuerdo con Meta, Voicebox puede realizar tareas de generación del habla (como edición, sampling y estilización). Aunque no fue específicamente diseñado para esto, son facultades que puede ha logrado aprender a través del contexto.
Esta herramienta puede producir audios de alta calidad y editar audio pregrabado (eliminar bocinas de coche, sonido del viento o ladridos de perros). El modelo también es multilingüe y puede producir contenido en más seis idiomas.
Entre sus principales características están:
Sintetizar el contexto de texto a habla: Utilizando una muestra de audio de tan solo un par de segundos, Voicebox puede adaptar el estilo de audio y utilizarlo para la generación de texto a habla
Editar el habla y reducir el ruido: Voicebox puede recrear una parte del discurso interrumpida por ruido o sustituir palabras mal pronunciadas sin tener que volver a grabar un discurso completo.
Transferir el estilo entre idiomas: Cuando se le da una muestra del habla de alguien y un pasaje de texto en inglés, francés, alemán, español, polaco o portugués, Voicebox puede leer el texto en cualquiera de esos idiomas, incluso si la muestra del habla y el texto están en idiomas diferentes.
Cuenta con muestreo de habla diversa: Al haber aprendido de datos diversos, Voicebox puede generar un habla más representativa de cómo se expresan las personas en el mundo real, en los seis idiomas mencionados.