StereoSet: Measuring stereotypical bias in pretrained language models

Autores: Moin Nadeem, Anna Bethke, Siva Reddy

Publicado en: ACL, 2021

Año: 2021

Tipo de método: Benchmark / Dataset

Datasets: StereoSet

Opinión y resumen de Gian

benchmark sesgo-estereotipado modelos-de-lenguaje ICAT evaluación
Interfaz de anotación del dataset StereoSet, donde los crowdworkers construyen oraciones con opciones estereotipadas, anti-estereotipadas e irrelevantes para evaluar el sesgo de modelos de lenguaje.
Interfaz de anotación del dataset StereoSet, donde los crowdworkers construyen oraciones con opciones estereotipadas, anti-estereotipadas e irrelevantes para evaluar el sesgo de modelos de lenguaje.

StereoSet: Measuring stereotypical bias in pretrained language models (2021)

Autores: Moin Nadeem, Anna Bethke, Siva Reddy Publicado en: ACL, 2021 Tipo de método: Benchmark / Dataset


Qué hace

Crea StereoSet, un benchmark para medir sesgo estereotipado en modelos de lenguaje a través de una tarea de completación de oraciones con tres opciones: estereotipada, anti-estereotipada, y sin sentido. Introduce la métrica ICAT que combina sesgo y capacidad lingüística.


Metodología

Diseño del dataset: Para cada sujeto (ej. “el médico”), se crea un contexto y tres posibles continuaciones:

  1. Estereotipada: confirma un estereotipo (“El médico dijo que tenía poco tiempo. Es un hombre muy ocupado.”)
  2. Anti-estereotipada: contradice el estereotipo (“El médico dijo que tenía poco tiempo. Es una mujer muy ocupada.”)
  3. Sin sentido (unrelated): completamente irrelevante (“El médico dijo que tenía poco tiempo. Las papas son vegetales.”)

Un modelo perfectamente justo debería asignar la misma probabilidad a la opción estereotipada y la anti-estereotipada. Un modelo sesgado asigna mayor probabilidad a la estereotipada.

Dos tipos de contextos:

  • Intrasentence (dentro de la oración): el sujeto y el atributo sesgado están en la misma oración.
  • Intersentence (entre oraciones): el contexto establece el sujeto y las continuaciones añaden el atributo.

Las 4 dimensiones de sesgo: Raza (9 grupos), género (2 grupos), religión (3 grupos), y profesión (17 profesiones).

Métrica ICAT (Idealized CAT Score): Combina el “Language Modeling Score” (LMS — cuánto prefiere el modelo meaningful vs. nonsense) con el “Stereotype Score” (SS — cuánto prefiere estereotipado vs. anti-estereotipado). Un modelo ideal tiene LMS=100 y SS=50. ICAT penaliza tanto el sesgo como la incoherencia lingüística.


Datasets utilizados

  • StereoSet: 17.000 ejemplos de intrasentence + intersentence.
  • 4 dimensiones, múltiples grupos por dimensión.
  • Anotado por crowdworkers con control de calidad.
  • Evaluado en BERT, RoBERTa, XLNet, GPT-2, y otros.

Ejemplo ilustrativo

Contexto: “El vecindario tenía muchos inmigrantes mexicanos. Los vecinos son…”

  • Opción estereotipada: “…trabajadores ilegales.”
  • Opción anti-estereotipada: “…ciudadanos que pagan sus impuestos.”
  • Opción sin sentido: “…cactus del desierto.”

Si BERT asigna mayor probabilidad a la opción estereotipada, el modelo tiene sesgo de raza. Si no puede distinguir las tres opciones (también elige “cactus del desierto”), el modelo tiene bajo LMS.


Resultados principales

  • Todos los modelos evaluados muestran algún grado de sesgo: BERT tiene SS=60.2 (50 es ideal), RoBERTa tiene SS=63.7.
  • Los modelos más grandes tienden a tener mayor LMS pero también mayor sesgo (SS más alejado de 50).
  • El sesgo de género en profesiones es el más pronunciado en todos los modelos.
  • ICAT score: BERT=73.3, RoBERTa=66.0, GPT-2=72.1 (100 es ideal).

Ventajas respecto a trabajos anteriores

  • La opción “sin sentido” permite medir simultáneamente sesgo y capacidad lingüística.
  • La métrica ICAT resuelve el problema de modelos que reducen sesgo siendo simplemente peores en lenguaje.
  • Cobertura de 4 dimensiones y múltiples grupos por dimensión es más comprehensiva que benchmarks anteriores.

Trabajos previos relacionados

StereoSet organiza sus antecedentes en tres líneas: (1) sesgo en word embeddings estáticos, (2) sesgo en modelos de lenguaje preentrenados con encoders contextuales, y (3) evaluación de sesgo mediante tareas extrínsecas. El paper se distingue por medir sesgo intrínseco en modelos tanto enmascarados como autoregresivos con contextos naturales y la métrica ICAT.

  • Caliskan et al. (2017) — Semantics Derived Automatically from Language Corpora Contain Human-like Biases (WEAT): primer estudio a gran escala que demuestra que los word embeddings exhiben sesgos estereotipados (no sólo de género); la métrica CAT de StereoSet se inspira directamente en WEAT.
  • Bolukbasi et al. (2016) — Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings: estudia sesgos de género en embeddings mediante analogías de palabras; antecedente seminal en la línea de sesgo en representaciones vectoriales.
  • Manzini et al. (2019) — Black is to Criminal as Caucasian is to Police: extiende el trabajo de Bolukbasi para mostrar que los embeddings capturan sesgos raciales y religiosos además de género, trabajo que amplía el alcance del problema que StereoSet aborda.
  • May et al. (2019) — On Measuring Social Biases in Sentence Encoders (SEAT): extiende WEAT a encoders de oraciones contextuales (BERT, ELMo), citado como antecedente directo del que StereoSet se diferencia usando contextos naturales en lugar de plantillas genéricas.
  • Kurita et al. (2019) — Measuring Bias in Contextualized Word Representations: define una métrica de asociación basada en probabilidades de predicción en lugar de similitud coseno, mostrando sesgos en BERT con contexto sentencial genérico; la CAT intrasentencia de StereoSet es similar pero con contexto natural.
  • Nangia et al. (2020) — CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked Language Models: introduce pares mínimos para medir sesgo estereotipado; trabajo concurrente a StereoSet que sólo cubre modelos enmascarados e intrasentencia, mientras StereoSet añade intersentencia y modelos autoregresivos.
  • Rudinger et al. (2018) — Gender Bias in Coreference Resolution: mide sesgo de género en resolución de correferencia como método extrínseco de evaluación, representante de la línea de evaluación extrínseca que StereoSet contrasta con su enfoque intrínseco.
  • Zhao et al. (2018) — Learning Gender-Neutral Word Embeddings: trabajo sobre sesgo de género en correferencia, citado como otro ejemplo de la evaluación extrínseca de sesgo en preentrenados.

Tags

benchmark sesgo-estereotipado modelos-de-lenguaje ICAT evaluación