Tech_projects | Lee-Ann Vidal Covas, PhD

Cogito: Speech Data Annotation for Machine Learning

Mon, 01 Jan 0001 00:00:00 +0000

Descripción General

Trabajé en la anotación y el aseguramiento de la calidad de conjuntos de datos de habla y lenguaje utilizados en modelos de aprendizaje automático, con el objetivo de mejorar el rendimiento del modelo y la consistencia de las anotaciones.

Mi Rol

Anoté datos de habla para emoción, participación y patrones del habla
Diseñé y refiné enfoques de anotación en distintos proyectos
Realicé ingeniería de prompts para mejorar los resultados del modelo
Probé modelos de lenguaje preentrenados y sugerí mejoras de calibración

Datos y Flujos de Trabajo

Procesé datos de audio y texto para pipelines de entrenamiento de ML
Construí y validé conjuntos de datos anotados para clientes internos y externos
Gestioné solicitudes de anotación dinámicas en varios equipos
Contribuí a mejoras en los flujos de trabajo y los procesos de QA

Impacto

Mejoré la consistencia de las anotaciones en los conjuntos de datos
Contribuí a datos de entrenamiento de mayor calidad para modelos de ML
Aporté perspectivas que informaron el comportamiento del modelo y las decisiones de UX

Spanish in Boston: Sociolinguistic Dataset & Analysis

Mon, 01 Jan 0001 00:00:00 +0000

Descripción General

Este proyecto consistió en diseñar y analizar conjuntos de datos sociolingüísticos para investigar la variación en el habla en español. Demuestra experiencia integral en la creación de datos, el diseño de anotaciones, el aseguramiento de la calidad y el análisis estadístico.

Mi Rol

Diseñé para variables lingüísticas inéditas
Gestioné la recolección, curación y flujos de trabajo de QA del conjunto de datos
Supervisé y formé a anotadores estudiantes
Lideré el ciclo de investigación completo, desde el diseño de datos hasta el modelado estadístico

Datos y Métodos

Construí y analicé conjuntos de datos de más de 70,000 tokens
Realicé codificación, y en R
Apliqué para investigar la variación lingüística
Desarrollé flujos de trabajo para la consistencia de anotaciones y la calidad de los datos

Resultados

Produje conjuntos de datos estructurados para el análisis de la variación en español
Generé hallazgos que contribuyeron a la
Demostré enfoques escalables para la anotación de datos lingüísticos y el QA