Tecnologías Disruptivas
Open Innovation Campus
Tecnologías Disruptivas
Recursos
Algunas referencias de arxiv:
https: //arxiv.org/pdf/2305.07243.pdf
Algunos repositorios para la síntesis del habla y la clonación de la voz:
https: //github.com/afiaka87/tortoise-tts/blob/main/tortoise_tts.ipynb
(https://github.com/afiaka87/tortoise-tts).
¿Te interesa?
Si eres profesor o estudiante universitario y tienes interés en participar en el programa TUTORÍA, registra tus datos para que podamos iniciar el programa.
Desafío propuesto para estudiantes con gran interés en aprender técnicas de apredizaje avanzadas junto con una sólida formación académica en matemáticas, ingeniería o campos relacionados con el procesamiento de señales.
En los últimos años, la disciplina de generación de imágenes ha experimentado una importante transformación debido a la adopción de transformadores autorregresivos y modelos de difusión procedentes del campo del aprendizaje profundo.
Estos enfoques tratan la síntesis de imágenes como un proceso estocástico y aprovechan amplios recursos computacionales y datos para aprender la distribución de la imagen.
Esta propuesta pretende aprovechar y aplicar a la síntesis de voz, los últimos avances en el campo de la creación generativa de imágenes.
Algunos resultados ya se han puesto a disposición del público, demostrando un alto nivel de expresividad en sistemas de clonación de voz y de conversión de texto a voz multivoces, como tortoise https://replicate.com/afiaka87/tortoise-tts?input=python
En este reto, proponemos aplicar esta metodología, para mejorar el rendimiento en la generación de imágenes, mediante el uso de espectrogramas del habla obtenidos por la transformada discreta de Fourier (DFT), tanto en su parte real como compleja, con el fin de mejorar la síntesis del habla.
Los espectrogramas del habla pueden emplearse como "representación de imagen" tanto del audio como del habla, lo que permite transferir "fácilmente" muchos avances de los campos del procesamiento de vídeo e imagen al dominio del procesamiento del habla.