Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias in LVLM-Based Text-to-Image Models
Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias in LVLM-Based Text-to-Image Models (2025)
Autores: NaHyeon Park, Namin An, Kunhee Kim, Soyeon Yoon, Jiahao Huo, Hyunjung Shim Publicado en: arXiv, 2025 Tipo de método: Evaluación / análisis
Qué hace
Estudia cómo los system prompts (instrucciones base del sistema) de modelos de visión-lenguaje grandes (LVLMs) usados para generación de imágenes influyen en los sesgos sociales de género y raza en las imágenes generadas, incluso cuando el modelo parece “alineado” con principios de equidad.
Metodología
Los modelos de text-to-image modernos (como DALL-E 3) usan LVLMs como intermediario: el LVLM reformula el prompt del usuario antes de pasarlo al generador de imágenes. Los system prompts del LVLM pueden modificar cómo se interpretan los prompts de usuario.
El experimento:
- Se prueban prompts de usuario que podrían generar imágenes sesgadas (ej. “un médico”, “un enfermero”, “un CEO”, “un asistente de limpieza”).
- Se evalúan estos prompts con diferentes system prompts: el default, system prompts “alineados” (que instruyen al modelo a ser equitativo), y system prompts “neutrales”.
- Se generan imágenes y se mide el sesgo en las imágenes resultantes usando clasificadores de género y etnia sobre los personajes generados.
Análisis de representaciones internas: Se estudian los embeddings del LVLM para ver si los system prompts de alineamiento cambian cómo el modelo representa conceptos con carga de género/raza. Se analiza la similitud coseno entre embeddings de profesiones y atributos demográficos.
Las partes del modelo estudiadas son las representaciones en las capas de atención cruzada (cross-attention) entre texto e imagen.
Datasets utilizados
- FairFace: dataset de imágenes con etiquetas de género, etnia y edad para evaluar distribución.
- Custom profession prompts: 30 profesiones con distintos estereotipos de género y raza.
- Evaluado con DALL-E 3 (usa GPT-4V como LVLM) y otros modelos text-to-image.
Ejemplo ilustrativo
Prompt del usuario: “Genera la imagen de un cirujano.”
Con system prompt default de DALL-E 3: genera un hombre blanco de mediana edad en el 80% de los casos.
Con system prompt “equitativo” que dice “Asegúrate de representar diversidad en género y etnia”: genera imágenes más diversas… pero sigue mostrando sesgos sutiles: las mujeres cirujanas generadas son más jóvenes, con menor autoridad visual (sin bisturí, sin bata de cirujano).
Conclusión: el sistema parece equitativo en distribución de género pero mantiene sesgos en el tipo de representación.
Resultados principales
- Los system prompts de “alineamiento” reducen el sesgo demográfico obvio (~30% mejora en distribución de género) pero no eliminan los sesgos cualitativos (cómo se representa visualmente cada grupo).
- Los embeddings del LVLM con system prompts equitativos siguen mostrando alta correlación entre profesiones de alto estatus y marcadores masculinos.
- Los system prompts influyen principalmente en la distribución superficial de géneros/razas pero no en los atributos asociados.
Ventajas respecto a trabajos anteriores
- Primer estudio que analiza el rol de los system prompts en el sesgo de modelos text-to-image.
- Distingue entre sesgos demográficos obvios y sesgos cualitativos sutiles.
- Relevante para el diseño de system prompts en sistemas de IA generativa comercial.
Trabajos previos relacionados
El artículo organiza los trabajos previos en dos ejes: avances en la generación texto-a-imagen (T2I) con énfasis en codificadores de texto, y medición y mitigación del sesgo social en modelos T2I.
- Nadeem et al. (2021) — StereoSet: Measuring stereotypical bias in pretrained language models: benchmark de referencia para estereotipos en LLMs cuya lógica de evaluación se extiende al dominio visual en este trabajo; ver 2021_nadeem_stereoset.md.
- Parrish et al. (2021) — BBQ: A hand-built bias benchmark for question answering: referente en benchmarks de sesgo en QA, cuya estructura de niveles de complejidad lingüística inspira el diseño jerárquico del benchmark T2I propuesto; ver 2021_parrish_bbq.md.
- Gallegos et al. (2024) — Self-debiasing large language models: método de debiasing mediante prompts de sistema, concepto central en la estrategia de mitigación basada en prompting automático del presente artículo; ver 2024_gallegos_self-debiasing.md.
- Smith et al. (2022) — HolisticBias: A dataset for bias in NLP: fuente de términos descriptores demográficos con cobertura amplia que inspira la selección de atributos en el benchmark multilingüe propuesto; ver 2022_smith_holistic-descriptor.md.
- Acerbi et al. (2023) — Large language models show human-like content biases in transmission chain experiments: evidencia de que los LLMs amplifican sesgos culturales, relevante para entender por qué los nuevos LVLM-encoders heredan sesgos del preentrenamiento; ver 2023_acerbi_human-like-biases.md.
- Vig et al. (2020) — Investigating gender bias in language models using causal mediation analysis: análisis causal del sesgo de género en LLMs, metodología referenciada para fundamentar el estudio de sesgo en los encoders de texto de los modelos T2I; ver 2020_vig_gender-bias-causal.md.
- Venkit et al. (2023) — Nationality bias in text generation: estudio de sesgo de nacionalidad en generación de texto, motivando la inclusión de atributos de etnia y nacionalidad en el benchmark multilingüe de este trabajo; ver 2023_venkit_nationality-bias.md.
Tags
sesgo-social text-to-image system-prompts modelos-multimodales evaluación