Meta lanza Voicebox, la inteligencia artificial que ayudaría en la edición de audio

22/06/2023

Voicebox es un modelo generativo de inteligencia artificial (IA) que puede ayudar con la edición, sampling y estilización de audio. Esta tecnología, lanzada y creada por Meta -la empresa matriz de Facebook- , podrá utilizarse para ayudar a los creadores de contenido, editores de video y sonidistas a mejorar sus pistas de audio.

Además, la inteligencia artificial de Meta podría ayudar a las personas con discapacidad visual a escuchar los mensajes enviados por sus amigos, con sus mismas voces. También podría ayudar a las personas a comunicarse en idiomas extranjeros sin tener conocimiento de estos, pero utilizando su propia voz.

De acuerdo con Meta, Voicebox puede realizar tareas de generación del habla (como edición, sampling y estilización). Aunque no fue específicamente diseñado para esto, son facultades que puede ha logrado aprender a través del contexto.

Esta herramienta puede producir audios de alta calidad y editar audio pregrabado (eliminar bocinas de coche, sonido del viento o ladridos de perros). El modelo también es multilingüe y puede producir contenido en más seis idiomas.

Entre sus principales características están:

Sintetizar el contexto de texto a habla: Utilizando una muestra de audio de tan solo un par de segundos, Voicebox puede adaptar el estilo de audio y utilizarlo para la generación de texto a habla

Editar el habla y reducir el ruido: Voicebox puede recrear una parte del discurso interrumpida por ruido o sustituir palabras mal pronunciadas sin tener que volver a grabar un discurso completo.

Transferir el estilo entre idiomas: Cuando se le da una muestra del habla de alguien y un pasaje de texto en inglés, francés, alemán, español, polaco o portugués, Voicebox puede leer el texto en cualquiera de esos idiomas, incluso si la muestra del habla y el texto están en idiomas diferentes.

Cuenta con muestreo de habla diversa: Al haber aprendido de datos diversos, Voicebox puede generar un habla más representativa de cómo se expresan las personas en el mundo real, en los seis idiomas mencionados.

Únete a nuestro canal de WhatsApp