La serie podcast 'XRey' recurre a Vicomtech para clonar la voz de Franco con Inteligencia Artificial

Esta clonación de voz constituye un gran reto científico-tecnológico que Vicomtech ha resuelto mediante tecnologías de inteligencia artificial aplicadas al procesamiento del habla.

XRey, una serie de The Story Lab en forma de podcast exclusivo para Spotify dirigida y guionizada por Álvaro de Cózar, y producida por Tony Garrido, hace a lo largo de diez capítulos de 25 minutos un repaso a la vida del Rey emérito Juan Carlos I.

A través de audios inéditos, entrevistas y más de 40 testimonios directos, como los de Rafael Spottorno, exjefe de la Casa del Rey; el hispanista Paul Preston o el político Alfredo Pérez Rubalcaba, entre otros, se desvelan los momentos más importantes de la vida del monarca.

Para la serie, The Story Lab, quiso clonar la voz de Francisco Franco. En lugar de acudir a un actor que imitara la voz del dictador se pusieron en manos de Vicomtech.

La empresa vasca ha generado la voz clonada de Franco exclusivamente para dos momentos clave del guión y uno de los dos bonus track que completan la serie, en el que se explica cómo ha sido su proceso de creación.

El objetivo de este desarrollo se ha centrado exclusivamente en dar respuesta a través de la tecnología a un requisito del guion de XRey que consistía en reproducir la voz de Franco en el capítulo 4, en el que lee una carta que él mismo escribió a Don Juan proponiendo a su hijo Juan Carlos como sucesor en la jefatura del Estado, además de otra intervención en el capítulo 5.

El reto tecnológico de este desarrollo basado en Artificial intelligence ha consistido en aplicar la clonación de una voz particular a una técnica narrativa innovadora y con multitud de posibilidades aún por explorar.

Con la tecnología empleada y basada en redes neuronales profundas, inicialmente localizaron una veintena de audios de entrenamiento para generar un modelo de calidad. Sin embargo, en este caso, la dificultad de encontrar audios en buen estado, limpios de ruidos y en el estilo narrativo que se buscaba, hizo que el modelo tuviera que generarse con tan solo 6 horas, compuestas principalmente por discursos navideños del dictador.

Con este limitado material y la aplicación de tecnología avanzada de Inteligencia Artificial, Vicomtech ha hecho posible la generación de un modelo de síntesis de habla realista que adquiere finalmente todas las particularidades, matices y estilo de la voz de Franco.

La tecnología desarrollada ha sido el resultado de varias semanas de trabajo y la implicación del Grupo de investigación de Tecnologías del Habla y del Lenguaje Natural de Vicomtech.

Esta semana, Spotify ha publicado un bonus track en el que se explica en detalle cómo ha sido el proceso de clonación de la voz de Franco.