Open Innovation Campus

Tecnologías Disruptivas

Procesado avanzado de señales para síntesis de voz ultrarrealista

No Disponible

Recursos

Algunas referencias de arxiv:

https: //arxiv.org/pdf/2305.07243.pdf

Algunos repositorios para la síntesis del habla y la clonación de la voz:

https: //github.com/afiaka87/tortoise-tts/blob/main/tortoise_tts.ipynb

(https://github.com/afiaka87/tortoise-tts).

¿Te interesa?

Si eres profesor o estudiante universitario y tienes interés en participar en el programa TUTORÍA, registra tus datos para que podamos iniciar el programa.

Registro Alumnos
Registro Profesores

Perfiles para desarrollar este proyecto

Desafío propuesto para estudiantes con gran interés en aprender técnicas de apredizaje avanzadas junto con una sólida formación académica en matemáticas, ingeniería o campos relacionados con el procesamiento de señales.

Introducción

En los últimos años, la disciplina de generación de imágenes ha experimentado una importante transformación debido a la adopción de transformadores autorregresivos y modelos de difusión procedentes del campo del aprendizaje profundo.

Estos enfoques tratan la síntesis de imágenes como un proceso estocástico y aprovechan amplios recursos computacionales y datos para aprender la distribución de la imagen.


Desafío

Esta propuesta pretende aprovechar y aplicar a la síntesis de voz, los últimos avances en el campo de la creación generativa de imágenes.

Algunos resultados ya se han puesto a disposición del público, demostrando un alto nivel de expresividad en sistemas de clonación de voz y de conversión de texto a voz multivoces, como tortoise  https://replicate.com/afiaka87/tortoise-tts?input=python

En este reto, proponemos aplicar esta metodología, para mejorar el rendimiento en la generación de imágenes, mediante el uso de espectrogramas del habla obtenidos por la transformada discreta de Fourier (DFT), tanto en su parte real como compleja, con el fin de mejorar la síntesis del habla.

Los espectrogramas del habla pueden emplearse como "representación de imagen" tanto del audio como del habla, lo que permite transferir "fácilmente" muchos avances de los campos del procesamiento de vídeo e imagen al dominio del procesamiento del habla.

¿Quién te plantea este desafío?

Los Tutores Industriales de Telefónica, te acompañan en el desarrollo del TFG/TFM, aportando su visión real de la industria. Compartirán su conocimiento y experiencia, ofreciéndote feedback para que puedas desarrollar un proyecto con impacto innovador.
Jordi Luque Serrano

Jordi Luque Serrano

Investigador - Discovery / Telefónica Innovación Digital