OpenAI anunció una nueva versión de ChatGPT que ahora puede “ver, oír y hablar” en voz alta con los usuarios.
Hasta ahora, la interacción con las diferentes versiones de ChatGPT solo se realizaba por escrito, pero los usuarios de pago podrán disfrutar de la capacidad de mantener conversaciones en voz alta y escuchar las respuestas de la máquina en “dos semanas”.
También podrán enviar fotos, imágenes, capturas de pantalla y documentos al chat para obtener respuestas específicas.
Los usuarios que utilizan la versión gratuita de esta herramienta tendrán acceso a estas nuevas actualizaciones poco después, según OpenAI.
La empresa destaca que la incorporación de voz y visión amplía las formas en que se puede utilizar ChatGPT en la vida cotidiana.
Por ejemplo, los usuarios pueden tomar fotos de su refrigerador y despensa para obtener sugerencias sobre qué cocinar o hacer preguntas para obtener recetas paso a paso. Además, esta herramienta de voz se puede utilizar para contar historias o resolver debates.
Inicialmente, este asistente de voz estará disponible en dispositivos iOS y Android, pero no en PC. Los usuarios podrán elegir entre cinco voces distintas, aunque la voz predeterminada se asemeja a la de una mujer joven y aparentemente blanca, como es común en este tipo de herramientas.
Para la conversión de la voz del usuario a texto, OpenAI utiliza su herramienta Whisper, que transcribe el audio, y luego emplea su nuevo modelo de conversión de texto a voz para generar la respuesta de la máquina.
OpenAI reconoce que esta nueva tecnología de voz tiene aplicaciones creativas y de accesibilidad, pero también plantea riesgos, como la posibilidad de que actores maliciosos se hagan pasar por figuras públicas o cometan fraudes.