El arte generado por IA está apareciendo por todas partes, pero esto es sólo el inicio. Microsoft ha lanzado recientemente una nueva herramienta de inteligencia artificial llamada VALL-E, que es similar a DALL-E de OpenAI (que imágenes y obras de arte) pero para voces.
Si esto suena aterrador, es porque lo es. Eso tampoco es todo. Según AITopics, la nueva herramienta de Microsoft iguala fácilmente la emoción y el tono, lo que resulta difícil para muchas herramientas de IA de voz.
El equipo entrenó a VALL-E con unas 60.000 horas de datos de habla inglesa, y demostró capacidades de aprendizaje contextual e incluso podía reproducir palabras que nunca había oído antes.
El informe afirma que VALL-E es capaz de TTS basado en indicaciones, sigue el contexto y no necesita acústica prediseñada ni ingeniería estructural para proporcionar una muestra de audio de alta calidad. Básicamente, esta nueva herramienta de IA es bastante impresionante. Todo lo que VALL-E necesita es oír unos 3 segundos de cualquier voz, y será capaz de imitar (o reproducir) rápidamente y con facilidad la voz.
Hay varios ejemplos de audio de la herramienta en GitHub, y aunque algunos suenan bien, otros no son tan impresionantes y tienen un tono robótico. Pero cuando funciona, funciona muy bien.
Dicho esto, aún estamos en los primeros días de VALL-E, y las cosas mejorarán con el tiempo. Además, si el equipo utilizara muestras más grandes, probablemente sería más preciso.
Es importante señalar que VALL-E no está disponible para el público, al menos de momento, así que todos podemos suspirar de alivio. Si llega a ocurrir, sin duda surgirán multitud de problemas de seguridad, sociales y éticos, como mínimo. Aunque esta tecnología suena ciertamente impresionante, también es bastante salvaje.