Open Innovation Campus

Digital Life

Mejora en los asistentes de voz con detección de actividad vocal

Disponible

Recursos facilitados

Acceso a los conjuntos de datos: Libriparty y conjunto de datos dentro del dominio

¿Te interesa?

Si eres profesor o estudiante universitario y tienes interés en participar en el programa TUTORÍA, registra tus datos para que podamos iniciar el programa.

Registro Alumnos
Registro Profesores

Área de desarrollo

Para el desarrollo de este proyecto TFG/TFM, se recomienda dominar el lenguaje de programación Python y comprender los fundamentos del aprendizaje automático.

Introducción

La popularidad de las interfaces basadas en la voz, ha aumentado significativamente debido a su capacidad para permitir la comunicación manos libres con una amplia gama de dispositivos.

En este contexto, las tecnologías de aprendizaje profundo han surgido como el enfoque estándar para mejorar la naturalidad y la eficiencia en las interacciones de los dispositivos.  

Edge AI desempeña un papel crucial en el desarrollo de tales interfaces, ya que ayuda a minimizar los retrasos y proteger la privacidad del usuario.

Existen varios enfoques para mejorar la comunicación entre humanos y dispositivos. Uno de estos enfoques consiste en trabajar a nivel de señal, concretamente con el audio hablado. Normalmente, esta señal está contaminada por la presencia de ruido de fondo.

El objetivo de la detección de actividad vocal es mejorar las interacciones de los usuarios con los dispositivos distinguiendo eficazmente entre ruidos no deseados y expresiones válidas del usuario.

Descripción

El objetivo del proyecto de investigación es evaluar las herramientas de detección de actividad vocal existentes e integrarlas en la cadena de comunicación entre personas y dispositivos. El proyecto puede dividirse en las siguientes subtareas:  

  • Investigar el Estado del Arte en Detección de Actividad de Voz.
  • Seleccionar una herramienta existente con disponibilidad de uso comercial gratuito basada en la investigación.
  • Explorar y preprocesar un conjunto de datos de audio fuera del dominio: Libriparty.
  • Utilizar esos datos para evaluar el rendimiento del modelo fuera del dominio.
  • Estudio de la selección del punto de funcionamiento y el posprocesamiento para modelos en tiempo real.
  • Exploración y preprocesamiento de un conjunto de datos de audio dentro del dominio: escenario doméstico.
  • Utilización de esos datos para evaluar el rendimiento del modelo en el dominio.
  • Selección del punto de funcionamiento en el dominio y de la estrategia de posprocesamiento.
  • Integración del modelo en la cadena de comunicación persona-dispositivo con asistentes virtuales.

¿Quién te plantea este desafío?

Los Tutores Industriales de Telefónica, te acompañan en el desarrollo del TFG/TFM, aportando su visión real de la industria. Compartirán su conocimiento y experiencia, ofreciéndote feedback para que puedas desarrollar un proyecto con impacto innovador.
Fernando López Telefónica

Fernando López Gavilánez

Product Exploration and Prototyping - Digital Home / Telefónica Innovación Digital