Cogito: Speech Data Annotation for Machine Learning

Descripción General
Trabajé en la anotación y el aseguramiento de la calidad de conjuntos de datos de habla y lenguaje utilizados en modelos de aprendizaje automático, con el objetivo de mejorar el rendimiento del modelo y la consistencia de las anotaciones.
Mi Rol
- Anoté datos de habla para emoción, participación y patrones del habla
- Diseñé y refiné enfoques de anotación en distintos proyectos
- Realicé ingeniería de prompts para mejorar los resultados del modelo
- Probé modelos de lenguaje preentrenados y sugerí mejoras de calibración
Datos y Flujos de Trabajo
- Procesé datos de audio y texto para pipelines de entrenamiento de ML
- Construí y validé conjuntos de datos anotados para clientes internos y externos
- Gestioné solicitudes de anotación dinámicas en varios equipos
- Contribuí a mejoras en los flujos de trabajo y los procesos de QA
Impacto
- Mejoré la consistencia de las anotaciones en los conjuntos de datos
- Contribuí a datos de entrenamiento de mayor calidad para modelos de ML
- Aporté perspectivas que informaron el comportamiento del modelo y las decisiones de UX

Autores
Lee-Ann Vidal Covas
(she/her)
Investigadora (PhD, Boston University) con experiencia en investigación sociolingüística, curación de conjuntos de datos y ciencia de datos aplicada.