Microsoft lanza VALL-E, una IA que puede reproducir tu voz

El arte generado por IA está apareciendo por todas partes, pero esto es sólo el inicio. Microsoft ha lanzado recientemente una nueva herramienta de inteligencia artificial llamada VALL-E, que es similar a DALL-E de OpenAI (que imágenes y obras de arte) pero para voces.

Si esto suena aterrador, es porque lo es. Eso tampoco es todo. Según AITopics, la nueva herramienta de Microsoft iguala fácilmente la emoción y el tono, lo que resulta difícil para muchas herramientas de IA de voz.

El equipo entrenó a VALL-E con unas 60.000 horas de datos de habla inglesa, y demostró capacidades de aprendizaje contextual e incluso podía reproducir palabras que nunca había oído antes.

El informe afirma que VALL-E es capaz de TTS basado en indicaciones, sigue el contexto y no necesita acústica prediseñada ni ingeniería estructural para proporcionar una muestra de audio de alta calidad. Básicamente, esta nueva herramienta de IA es bastante impresionante. Todo lo que VALL-E necesita es oír unos 3 segundos de cualquier voz, y será capaz de imitar (o reproducir) rápidamente y con facilidad la voz.

Hay varios ejemplos de audio de la herramienta en GitHub, y aunque algunos suenan bien, otros no son tan impresionantes y tienen un tono robótico. Pero cuando funciona, funciona muy bien.

Dicho esto, aún estamos en los primeros días de VALL-E, y las cosas mejorarán con el tiempo. Además, si el equipo utilizara muestras más grandes, probablemente sería más preciso.

Es importante señalar que VALL-E no está disponible para el público, al menos de momento, así que todos podemos suspirar de alivio. Si llega a ocurrir, sin duda surgirán multitud de problemas de seguridad, sociales y éticos, como mínimo. Aunque esta tecnología suena ciertamente impresionante, también es bastante salvaje.