Tecnología

Una solución de Microsoft para generar subtítulos más precisos en video

Programa de subtítulos AI Mimi en un programa televisivo de Japón

Tardan cuatro años en desarrollar “AI Mimi”, una combinación entre la intervención humana y la herramienta de Microsoft “Azure Cognitive Service”.

Los subtítulos en producciones de televisión, redes sociales y otras plataformas de video son cada vez más demandados por todo tipo de audiencias en el mundo.

Por ejemplo, en Reino Unido, los subtítulos están principalmente destinados a los espectadores con pérdida de audición, pero son usados por una gama de personas más grande: alrededor de 10 por ciento de los televidentes utilizan subtítulos con regularidad, aumentando a 35 por ciento en contenidos en línea, y la mayoría de estos no tienen problemas de audición, informa la BBC.

Un caso particular de uso de los subtítulos en video es Japón, donde más de 360 mil personas son sordas o tienen dificultades auditivas, y 70 mil de ellas usan la Lengua de Señas como su forma principal de comunicación, mientras que el resto prefiere el japonés escrito como la forma principal de acceder al contenido.

Con casi 30 por ciento de las personas en Japón de 65 años o más, en ese país se estima que 14.2 millones de personas tienen ya una discapacidad auditiva.

Desde hace varios años, las principales emisoras japonesas tienen subtítulos para la mayoría de sus programas, lo que a su vez genera la necesidad de personal dedicado a crearlos o al uso de equipos especializados que cuestan decenas de millones de yenes japoneses.

Ante esto, hay barreras como las que enfrentan hoy más de 100 canales de televisión locales en Japón para proporcionar subtítulos en programas en vivo debido al alto costo del equipo y las limitaciones de personal.

En ese país, las emisoras locales tienen una gran relevancia para las comunidades a las que sirven, principalmente porque los noticiarios locales transmiten actualizaciones significativas sobre el área y su población.

En 2018, la empresa SI-com y su empresa matriz, ISCEC Japan, para resolver este reto de accesibilidad, empezaron pruebas en las estaciones de televisión locales con un sistema innovador y especialmente rentable para introducir subtítulos en sus transmisiones en vivo.

Esta solución llamada “AI Mimi” es una combinación entre la intervención humana y la herramienta de Microsoft “Azure Cognitive Service”, que puede traducir de voz a texto y de texto a voz en varios idiomas, personalizando los modelos de voz de acuerdo con la necesidad de entornos acústicos, pronunciaciones y otras variantes, además de hacerlo en tiempo real.

De esta manera, se cuenta con una solución más precisa y rápida a través del formato híbrido, por lo que empresas como ISCEC pueden compensar la escasez de personas que ingresan subtítulos localmente al aprovechar su propio personal especializado. 

A través de pruebas exhaustivas y recolección de comentarios de los usuarios SI-com encontró que la audiencia requería de fuentes más grandes y una mejor visualización de los subtítulos en la pantalla.

Ante esto, creó un modelo con más de 10 líneas de subtítulos en el lado derecho de la pantalla del televisor en vez de la versión más utilizada con solo dos líneas en la parte inferior. 

En diciembre de 2021, en una transmisión en vivo, en asociación con un canal de televisión local en Nagasaki, hicieron por primera vez una demostración de esta tecnología en tiempo real, la cual fue evaluada por la comunidad de sordos y con problemas de audición, calificando la experiencia satisfactoriamente y confirmando que se cumplieron sus necesidades y deseos de accesibilidad. 

Por su parte, la estación de televisión local resaltó los beneficios de usar el modelo de ISCEC sin el requisito o el costo de equipos especializados. AI Mimi fue reconocida por la Universidad de Okinawa y recibió apoyo del programa Microsoft AI para Accesibilidad.

Por Carlos Tomasini

*Las notas relacionadas en este texto, que están fuera del sitio  yotambien.mx, no necesariamente contienen un lenguaje inclusivo, o cumplen con criterios de accesibilidad web, compatibles con el uso de tecnologías de apoyo para pcd.  yotambién.mx no es responsable de lo que publican estos sitios de referencia.