Microsoft crea una herramienta capaz de imitar cualquier voz escuchando solo tres segundos

Ángel Jiménez de Luis

EE.UU

Actualizado marzo, 10 de enero de 2023 –
21:01

Cuanto ms parecido sea la voz de la persona a las 7.000 voces que tiene de referencia, ms fcil es para VALL-E para ofrecer un resultado convincente, no slo funciona en ingls

Microsoft crea una herramienta capaz de imitar cualquier voz escuch

Varias herramientas creadas con técnicas de inteligencia artificial y aprendizaje automático han conseguido sorprendernos en los últimos años. Dall-E, Midjourney o Difusión Establepor ejemplo, su capacidad para crear imágenes a partir de descripciones de texto. ChatGPT Puede hablar como un humano, explicar tal concepto y elaborar resmenes de forma coherente.

Ahora, Microsoft ha conseguido también aplicar estas técnicas para crear un motor de síntesis de voz capaz de imitar la voz de cualquier persona tan sólo escuchando hablar durante tres segundos. La herramienta se llama VALLE-E y es capaz de imitar el tono y la inflexin con una precisión sorprendente.

Los modelos de sntesis de voz que utilizan tcnicas de aprendizaje mquina para obtener un resultado realista no son nuevos. Empresas como Google o Meta llevan aos perfeccionándolos. Algunos son capaces de imitar voces, pero necesitan un extenso entrenamiento con textos que contengan la mayora de fonemas y eso requiere muchas veces leer varios minutos de textos predefinidos.

VALL-E, a cambio, es capaz de captar la esencia de una voz escuchando cualquier fragmento de tres segundos, aunque lo que diga no tenga nada que ver con el texto que se le pide sintetizar. Microsoft lo ha conseguido entrenando el modelo de lenguaje con ms de 60.000 horas para aprovechar y más de 7.000 voces diferentes que forman parte del catálogo de LibriLight.

Cuanto ms parecido sea la voz de la persona a una de esas 7.000 voces de referenciams fcil es para VALL-E ofrece un resultado convincente, no momento, eso s, slo funciona en ingls.

Además de conservar la entonación y el timbre, VALL-E imita también otras variables del entorno. Si la muestra de tres segundos proviene de una llamada telefónica, por ejemplolos resultados de sonarn como llamada telefnica Tambin.

Microsoft espera que este tipo de herramientas se utilicen en el futuro para corregir errores en grabaciones de audio, generar asistencias virtuales más realistas o recuperar la voz de alguien fallecido. La empresa, además, ha creado también una herramienta para detectar el uso de VALL-E en una grabación y prévenir as que se wear par suplantar la identidad de una persona o burlar un sistema de identificación biométrica.

Cumple con los criterios de

El proyecto de confianza

cortar más

Microsoft crea una herramienta capaz de imitar cualquier voz escuchando solo tres segundos

El papel clave de la formación técnica en el desarrollo tecnológico surcoreano

Ajustes fiscales en Francia para mejorar la competitividad sin erosionar la demanda interna

Cómo la competencia en mercados digitales de Estados Unidos fomenta mejores políticas y resultados

Barreras y soluciones para fortalecer la industria manufacturera y cadenas de valor en Ghana

Prevención y tratamiento de la obesidad desde un enfoque multidisciplinario

La responsabilidad social empresarial fortalece la productividad agrícola en Benín