Spanish in Boston: Sociolinguistic Dataset & Analysis

Descripción General

Este proyecto consistió en diseñar y analizar conjuntos de datos sociolingüísticos para investigar la variación en el habla en español. Demuestra experiencia integral en la creación de datos, el diseño de anotaciones, el aseguramiento de la calidad y el análisis estadístico.

Mi Rol

Diseñé directrices de anotación para variables lingüísticas inéditas
Gestioné la recolección, curación y flujos de trabajo de QA del conjunto de datos
Supervisé y formé a anotadores estudiantes
Lideré el ciclo de investigación completo, desde el diseño de datos hasta el modelado estadístico

Datos y Métodos

Construí y analicé conjuntos de datos de más de 70,000 tokens
Realicé codificación, extracción y análisis estadístico en R
Apliqué modelado probabilístico para investigar la variación lingüística
Desarrollé flujos de trabajo para la consistencia de anotaciones y la calidad de los datos

Resultados

Produje conjuntos de datos estructurados para el análisis de la variación en español
Generé hallazgos que contribuyeron a la investigación doctoral
Demostré enfoques escalables para la anotación de datos lingüísticos y el QA

Research Data Linguistics

Autores

Lee-Ann Vidal Covas (she/her)

Investigadora (PhD, Boston University) con experiencia en investigación sociolingüística, curación de conjuntos de datos y ciencia de datos aplicada.

← Cogito: Speech Data Annotation for Machine Learning