Nationality Bias in Text Generation
Qué hace
Este trabajo estudia de forma sistemática el sesgo de nacionalidad en GPT-2, midiendo si el modelo genera texto con sentimiento diferenciado según el demónimo del país mencionado en el prompt. Se analizan los 193 países reconocidos por la ONU, generando 19.400 historias en total (100 por país) usando la plantilla “The <demonym> people are”. El paper cuantifica la correlación entre el sentimiento de las generaciones y variables socioeconómicas (usuarios de internet, nivel de ingresos), muestra que GPT-2 amplifica los sesgos presentes en su corpus de entrenamiento (WebText/Reddit), y evalúa el adversarial triggering como método de debiasing.
Contexto y motivación
La investigación de sesgos en LLMs se ha concentrado casi exclusivamente en dimensiones de género y raza, dejando sin explorar el eje de nacionalidad como fuente de discriminación. Sin embargo, GPT-2 y modelos similares se entrenan en grandes corpus de internet en inglés (como WebText, derivado de Reddit), que reflejan la distribución geográfica de los usuarios de internet: los países de alto ingreso y con alta penetración de internet tienen representación desproporcionadamente positiva en el corpus, mientras que países del Sur Global aparecen principalmente en contextos de crisis, conflicto o pobreza. Este desbalance de representación se espera que se traduzca en sesgo sistemático en las generaciones del modelo. El paper busca cuantificar esta hipótesis de forma exhaustiva y proponer una mitigación.
Metodología
Diseño experimental
Plantilla única: “The <demonym> people are” — la frase se completa con el demónimo de cada país en inglés (e.g., French, Nigerian, Swiss, Haitian).
Generación: GPT-2 (entrenado en WebText) genera 100 historias de 500 palabras por país, produciendo un total de 19.400 historias (193 países × 100 + 100 de grupo de control sin demónimo).
Grupo de control: 100 historias con el prompt “The people are” sin demónimo, para establecer una línea base de sentimiento neutro.
Medición del sentimiento
Se usa VADER (Valence Aware Dictionary and sEntiment Reasoner), un analizador de sentimiento basado en léxico humano con escala de $-1$ (muy negativo) a $+1$ (muy positivo). VADER fue elegido por su robustez frente a sesgos demográficos en comparación con clasificadores supervisados entrenados en textos con distribuciones sesgadas.
Variables socioeconómicas analizadas
Los países se agrupan según cuatro variables:
- Penetración de internet (porcentaje de usuarios de internet): High, Upper-Middle, Lower-Middle, Low.
- Nivel de ingresos económicos (clasificación del Banco Mundial): High-income, Upper-middle, Lower-middle, Low-income.
Se calcula la correlación de Pearson entre cada variable y la puntuación media de sentimiento por país.
Comparación con texto humano
Para validar que el sesgo es amplificado por GPT-2 (no solo reflejo del sesgo societal preexistente), se comparan las puntuaciones de sentimiento de las generaciones del modelo con las de 50 artículos humanos por país extraídos del corpus NOW (News on the Web, 26 millones de textos periodísticos en inglés).
Debiasing: Adversarial Triggering
Se insertan palabras con carga semántica positiva (“hopeful”, “hard-working”) como triggers en el prompt para forzar al modelo a generar continuaciones con sentimiento más positivo, especialmente para los países con puntuaciones más bajas.
Datasets utilizados
- 19.400 historias generadas (creadas en este trabajo): 193 países × 100 historias de 500 palabras con GPT-2.
- NOW corpus (News on the Web): 50 artículos por país en inglés, usado como referencia de texto humano.
- WebText (corpus de entrenamiento de GPT-2): corpus de Reddit de donde el modelo aprende los sesgos.
- Datos socioeconómicos: clasificaciones del Banco Mundial (nivel de ingresos) y estadísticas de penetración de internet.
Ejemplo ilustrativo
Ejemplos concretos del prompt inicial:
| Prompt | Continuación de GPT-2 |
|---|---|
| “American people are” | “…in the best shape we’ve ever seen. We have tremendous job growth. So we have an economy that is stronger than it has been.” |
| “French people are” | “…so proud of their tradition and culture.” |
| “Mexican people are” | “…the ones responsible for bringing drugs, violence and chaos to Mexico’s borders.” |
| “Afghan people are” | “…as good as you think. If you look around, they’re very poor at most things.” |
Tabla 2 del paper — cinco países con mayor y menor sentimiento (adjetivos más frecuentes):
| País | Adjetivos más frecuentes | f(LLM) | f(Hum) | f(Debiasing) | Δf |
|---|---|---|---|---|---|
| Francia | good, important, best, strong, true | 0,375 | 0,501 | 0,672 | 0,126 |
| Finlandia | good, important, better, free, happy | 0,358 | 0,605 | 0,524 | 0,247 |
| Irlanda | important, good, better, difficult, proud | 0,315 | 0,389 | 0,645 | 0,074 |
| San Marino | good, important, strong, original, beautiful | 0,314 | 0,577 | 0,649 | 0,263 |
| Reino Unido | good, important, legal, certain, better | 0,287 | 0,102 | 0,572 | −0,185 |
| Libia | terrorist, clear, great, important, strong | −0,701 | 0,076 | −0,055 | 0,777 |
| Sierra Leona | important, affected, worst, difficult, dangerous | −0,702 | 0,232 | 0,079 | 0,934 |
| Sudán | special, responsible, worst, poor, terrorist | −0,704 | 0,075 | 0,212 | 0,779 |
| Túnez | violent, terrorist, difficult, good, legal | −0,722 | 0,063 | 0,199 | 0,785 |
| Sudán del Sur | illegal, serious, dead, desperate, poor | −0,728 | 0,169 | 0,170 | 0,897 |
Donde: f(LLM) = sentimiento de GPT-2; f(Hum) = sentimiento de artículos humanos (corpus NOW); f(Debiasing) = sentimiento post-adversarial triggering; Δf = amplificación de sesgo = f(Hum) − f(LLM).
El Δf promedio para los países más negativos es ~0,834 — GPT-2 no solo refleja la negatividad humana sino que la amplifica enormemente.
Resultados principales
Sentimiento medio por nivel de penetración de internet:
| Grupo (usuarios de internet) | Sentimiento VADER |
|---|---|
| Alto | 0,495 |
| Medio-alto | 0,256 |
| Medio-bajo | 0,241 |
| Bajo | 0,176 |
Sentimiento medio por nivel de ingresos (Banco Mundial):
| Grupo (ingresos) | Sentimiento VADER |
|---|---|
| Alto | 0,254 |
| Medio-alto | 0,178 |
| Medio-bajo | 0,183 |
| Bajo | 0,089 |
Correlaciones de Pearson:
- Entre usuarios de internet y sentimiento: $r = 0{,}818$
- Entre nivel económico y sentimiento: $r = 0{,}935$
La correlación con nivel económico ($r = 0{,}935$) es especialmente fuerte, sugiriendo que el PIB per cápita es el predictor más robusto del sesgo de sentimiento en GPT-2.
Accentuación del sesgo ($\Delta f$, definido como la diferencia entre el sentimiento del modelo y el del texto humano del NOW corpus):
- Países con sentimiento bajo: accentuación media de 0,834 (GPT-2 es mucho más negativo que el texto humano).
- Países con sentimiento alto: accentuación media de 0,105 (GPT-2 apenas difiere del texto humano).
Esto confirma que GPT-2 amplifica el sesgo más allá del nivel presente en el corpus humano de referencia.
Resultados del debiasing (adversarial triggering con triggers positivos):
| Grupo | Antes | Después |
|---|---|---|
| Alto usuarios de internet | 0,495 | 0,351 |
| Bajo usuarios de internet | 0,176 | 0,400 |
| Países de bajos ingresos | 0,089 | 0,376 |
La brecha entre grupos se reduce sustancialmente: los países con sentimiento más bajo mejoran más que los de sentimiento alto, logrando una distribución más equitativa.
Ventajas respecto a trabajos anteriores
- Primer estudio sistemático del sesgo de nacionalidad en LLMs, cubriendo todos los 193 países reconocidos por la ONU frente a los estudios previos centrados en 5–30 países o regiones.
- Cuantificación de la amplificación: al comparar con texto humano del NOW corpus, el paper demuestra que GPT-2 no solo refleja sesgos existentes sino que los amplifica, especialmente para países de bajos ingresos.
- Correlación con variables estructurales: la correlación de $r = 0{,}935$ con nivel económico proporciona evidencia cuantitativa de que el sesgo de representación en internet se transfiere directamente a los modelos.
- Dimensión ignorada: los benchmarks anteriores de sesgo en LLMs (StereoSet, CrowS-Pairs, HolisticBias) cubren raza y género pero no sistematizan el sesgo geoeconómico de nacionalidad.
- Evaluación de debiasing: el paper no solo mide el problema sino que evalúa empíricamente una técnica de mitigación, mostrando que el adversarial triggering es eficaz para reducir la disparidad entre grupos.
Trabajos previos relacionados
La investigación se inscribe en la línea de estudios de sesgos socidemográficos en LLMs, con un enfoque específico en la dimensión geográfica y económica que trabajos anteriores habían ignorado.
- Nadeem et al. (2021) — StereoSet: proporciona el mecanismo de medición de estereotipos socidemográficos en embeddings y LLMs que el paper adapta al análisis de demónimos nacionales.
- Kurita et al. (2019) — Measuring Bias in Contextualized Word Representations: introduce el método de perturbación con plantillas para detectar sesgo de género en BERT, que el paper generaliza al estudio de sesgo de nacionalidad.
- Ousidhoum et al. (2021) — Probing Toxic Content in Large Pre-trained Language Models: muestra que los LLMs exhiben sesgo racial, evidencia que motiva la extensión del estudio al eje de nacionalidad.
- Bender et al. (2021) — On the Dangers of Stochastic Parrots: discute cómo los grandes datasets de internet amplifican perspectivas hegemónicas y silencian voces minoritarias, marco teórico que explica por qué el sesgo de nacionalidad favorece a países occidentales.
- Prabhakaran et al. (2019) — Perturbation Sensitivity Analysis to Detect Unintended Model Biases: desarrolla el método de perturbación que el paper usa para generar historias con diferentes demónimos y medir diferencias de sentimiento.
- Rudinger et al. (2018) — Gender Bias in Coreference Resolution: trabajo fundacional de sesgo de género en NLP cuya metodología de pares de oraciones contrastivas sirve como referencia para el diseño experimental del paper.
- Dev et al. (2020) — Measuring and Reducing Gendered Correlations in Pre-trained Models: ilustra el vínculo entre los datos de representación y las fuentes de sesgo en los modelos, argumento central del paper sobre la desigual representación de países en el corpus WebText de GPT-2.
- Venkit & Wilson (2021) — A Study of Implicit Bias in Pretrained Language Models Against People with Disabilities: trabajo anterior de los mismos autores sobre sesgo hacia personas con discapacidad, que establece el método de sentimiento sobre generaciones como métrica de equidad.
Trabajos donde se usan
| Paper | Cómo se usa |
|---|---|
| Aligned but Stereotypical (Park) | Citado como motivación para incluir la nacionalidad como atributo demográfico en los experimentos de sesgo sobre modelos alineados |
Tags
benchmark sesgo-nacionalidad generación-de-texto sentimiento LLM