Spanish in Boston: Sociolinguistic Dataset & Analysis

Descripción General
Este proyecto consistió en diseñar y analizar conjuntos de datos sociolingüísticos para investigar la variación en el habla en español. Demuestra experiencia integral en la creación de datos, el diseño de anotaciones, el aseguramiento de la calidad y el análisis estadístico.
Mi Rol
- Diseñé directrices de anotación para variables lingüísticas inéditas
- Gestioné la recolección, curación y flujos de trabajo de QA del conjunto de datos
- Supervisé y formé a anotadores estudiantes
- Lideré el ciclo de investigación completo, desde el diseño de datos hasta el modelado estadístico
Datos y Métodos
- Construí y analicé conjuntos de datos de más de 70,000 tokens
- Realicé codificación, extracción y análisis estadístico en R
- Apliqué modelado probabilístico para investigar la variación lingüística
- Desarrollé flujos de trabajo para la consistencia de anotaciones y la calidad de los datos
Resultados
- Produje conjuntos de datos estructurados para el análisis de la variación en español
- Generé hallazgos que contribuyeron a la investigación doctoral
- Demostré enfoques escalables para la anotación de datos lingüísticos y el QA

Autores
Lee-Ann Vidal Covas
(she/her)
Investigadora (PhD, Boston University) con experiencia en investigación sociolingüística, curación de conjuntos de datos y ciencia de datos aplicada.