Nuestro sitio web utiliza cookies para mejorar y personalizar su experiencia y para mostrar anuncios (si los hay). Nuestro sitio web también puede incluir cookies de terceros como Google Adsense, Google Analytics o YouTube. Al utilizar el sitio web, usted acepta el uso de cookies. Hemos actualizado nuestra Política de Privacidad. Haga clic en el botón para consultar nuestra Política de Privacidad.

Microsoft crea una herramienta capaz de imitar cualquier voz escuchando solo tres segundos

Microsoft crea una herramienta capaz de imitar cualquier voz escuchando solo tres segundos


Actualizado

Cuanto ms parecido sea la voz de la persona a las 7.000 voces que tiene de referencia, ms fcil es para VALL-E para ofrecer un resultado convincente, no slo funciona en ingls

Microsoft crea una herramienta capaz de imitar cualquier voz escuch

Varias herramientas creadas con técnicas de inteligencia artificial y aprendizaje automático han conseguido sorprendernos en los últimos años. Dall-E, Midjourney o Difusión Establepor ejemplo, su capacidad para crear imágenes a partir de descripciones de texto. ChatGPT Puede hablar como un humano, explicar tal concepto y elaborar resmenes de forma coherente.

Ahora, Microsoft ha conseguido también aplicar estas técnicas para crear un motor de síntesis de voz capaz de imitar la voz de cualquier persona tan sólo escuchando hablar durante tres segundos. La herramienta se llama VALLE-E y es capaz de imitar el tono y la inflexin con una precisión sorprendente.

Los modelos de sntesis de voz que utilizan tcnicas de aprendizaje mquina para obtener un resultado realista no son nuevos. Empresas como Google o Meta llevan aos perfeccionándolos. Algunos son capaces de imitar voces, pero necesitan un extenso entrenamiento con textos que contengan la mayora de fonemas y eso requiere muchas veces leer varios minutos de textos predefinidos.

VALL-E, a cambio, es capaz de captar la esencia de una voz escuchando cualquier fragmento de tres segundos, aunque lo que diga no tenga nada que ver con el texto que se le pide sintetizar. Microsoft lo ha conseguido entrenando el modelo de lenguaje con ms de 60.000 horas para aprovechar y más de 7.000 voces diferentes que forman parte del catálogo de LibriLight.

Cuanto ms parecido sea la voz de la persona a una de esas 7.000 voces de referenciams fcil es para VALL-E ofrece un resultado convincente, no momento, eso s, slo funciona en ingls.

Además de conservar la entonación y el timbre, VALL-E imita también otras variables del entorno. Si la muestra de tres segundos proviene de una llamada telefónica, por ejemplolos resultados de sonarn como llamada telefnica Tambin.

Microsoft espera que este tipo de herramientas se utilicen en el futuro para corregir errores en grabaciones de audio, generar asistencias virtuales más realistas o recuperar la voz de alguien fallecido. La empresa, además, ha creado también una herramienta para detectar el uso de VALL-E en una grabación y prévenir as que se wear par suplantar la identidad de una persona o burlar un sistema de identificación biométrica.

Cumple con los criterios de

El proyecto de confianza

cortar más