Logotipo de Yo También
Meta lanza Voicebox, su IA que convierte texto a voz.Meta lanza Voicebox, su IA que convierte texto a voz.

Voicebox, la inteligencia artificial de Meta enfocada en el habla

El nuevo modelo de inteligencia artificial de Meta permite sintetizar el habla en seis idiomas y eliminar el ruido, entre otras cualidades que no solo van bien para pcd visual.

Ícono de calendario

21 de junio de 2023

Ícono de autor

Carlos Tomasini

Meta, empresa que originalmente fue fundada con el nombre de Facebook, presentó Voicebox, un modelo de inteligencia artificial de última generación capaz de sintetizar el habla en seis idiomas. Incluye el español y además elimina ruido, edita contenidos y estiliza conversaciones.

Al igual que los sistemas de inteligencia para imágenes y texto –como ChatGPT y Bing Image Creator–, Voicebox crea resultados en audio con una gran variedad de estilos y puede armarlos desde cero, así como modificar una muestra que se le haya proporcionado.

De esta manera, podría permitir a personas con discapacidad visual escuchar mensajes escritos de sus amigos, leídos con inteligencia artificial en sus propias voces. Encima de esto, podrá dar a los usuarios nuevas herramientas para crear y editar fácilmente pistas de audio para videos.

Es capaz de realizar tareas de generación del habla –como edición, sampling y estilización–­­ para las que no fue entrenado específicamente pero puede resolver a través del aprendizaje en contexto,

explicó Meta en un comunicado.

Da clic para reproducir el video:

¿Qué puede hacer Voicebox?

Puede utilizar una muestra de audio de solamente un par de segundos para adaptarlo y usarlo para la generación de texto a habla. También servirá para recrear una parte del discurso interrumpida por ruido o sustituir palabras mal pronunciadas sin tener que volver a grabar un discurso completo.

“Por ejemplo, puedes identificar un segmento de un discurso interrumpido por los ladridos de un perro, recortarlo y pedir a Voicebox que vuelva a generar ese segmento, como un borrador para la edición de audio”, describió la empresa fundada por Mark Zuckerberg.

Cuando a Voicebox se le da una muestra del habla de alguien y un pasaje de texto en inglés, francés, alemán, español, polaco o portugués, puede leer el texto en cualquiera de esos idiomas, incluso si la muestra del habla y el texto están en idiomas diferentes.

Esta capacidad podrá utilizarse en el futuro para ayudar a las personas a comunicarse de forma natural y auténtica, aunque no hablen el mismo idioma,

afirmó Meta

De esta manera, este desarrollo puede generar un habla más representativa de cómo se expresan las personas en el mundo real en esos seis idiomas.

“Voicebox es un importante avance en nuestra investigación sobre IA generativa y nos emociona seguir nuestro trabajo en el ámbito del audio y ver cómo otros investigadores se basan en este”, indicó la compañía. “En el futuro, modelos generativos multipropósitos de IA como Voicebox podrán dar voces naturales a asistentes virtuales y personajes no jugadores del metaverso”.

Por Carlos Tomasini

Te interesa: Conoce la pluma que traduce voz y texto Cómo ver, oír, tocar y oler los datos cuando se vive con ceguera Realidad virtual: el impacto de vivir en la piel de las personas con discapacidad