Digital Life
Open Innovation Campus
Digital Life
Recursos
El proyecto utilizará principalmente herramientas y conjuntos de datos públicos.
¿Te interesa?
Si eres profesor o estudiante universitario y tienes interés en participar en el programa TUTORÍA, registra tus datos para que podamos iniciar el programa.
Desafío propuesto para estudiantes con conocimientos y estudios lingüisticos, dado que el enfoque está en el habla.
También se recomiénda tener conocimientos técnicos básicos sobre Large Language Models, prompting y Python.
Comprender la información auditiva es esencial para fomentar interacciones naturales entre humanos y máquinas.
Los modelos de lenguaje de audio de gran tamaño (LALM) han avanzado rápidamente, con modelos como LTU, SALMONN, GAMA, Audio Flamingo 2, Qwen2.5-Omni, Audio Resoner, Kimi-Audio y Audio Flamingo 3 que muestran importantes avances en el procesamiento de entradas de audio.
La evaluación de estos modelos es clave para comprender su rendimiento y sus limitaciones.
Los puntos de referencia existentes, como MMAU, MMAR, MMSU y MMAU-Pro, se centran principalmente en el inglés. En el caso del español, sigue existiendo una clara brecha, lo que pone de relieve la necesidad de un punto de referencia específico.
Este desafío tiene como objetivo crear un punto de referencia para responder preguntas de opción múltiple con el fin de evaluar las capacidades lingüísticas de los LALM en español.
Se utilizarán datos de audio reales en español y conocimientos lingüísticos para elaborar preguntas y opciones de respuesta en español.
El proceso incluye:
- Definir las capacidades objetivo (comprensión, razonamiento, contexto).
- Recopilar diversos audios en español de distintos dialectos y contextos.
- Crear preguntas de opción múltiple equilibradas y respuestas plausibles.
- Validar la calidad mediante revisión humana.
- Evaluar los modelos seleccionados y analizar los resultados.
Desarrollo de un informe científico que analiza el punto de referencia, además del punto de referencia en sí con el audio y las preguntas y respuestas correspondientes.