BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses

Autores: Xin Xu, Xiaoqiao He, Churan Zhi, Ruizhe Chen, Julian McAuley, Zexue He

Publicado en: arXiv, 2025

Año: 2025

Tipo de método: Benchmark / Dataset

Datasets: BiasFreeBench

Opinión y resumen de Gian

benchmark debiasing sesgo-social utilidad LLM
Gráfico de líneas que muestra el puntaje BFS (%) de distintos métodos de mitigación de sesgo (Vanilla, Self-Reflection, CoT, DPO, SFT, Task Vector, entre otros) en función del tamaño del modelo Qwen2.5 (de 0.5B a 14B parámetros), evidenciando que CoT y Self-Help dominan consistentemente.
Gráfico de líneas que muestra el puntaje BFS (%) de distintos métodos de mitigación de sesgo (Vanilla, Self-Reflection, CoT, DPO, SFT, Task Vector, entre otros) en función del tamaño del modelo Qwen2.5 (de 0.5B a 14B parámetros), evidenciando que CoT y Self-Help dominan consistentemente.

BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses (2025)

Autores: Xin Xu, Xiaoqiao He, Churan Zhi, Ruizhe Chen, Julian McAuley, Zexue He Publicado en: arXiv, 2025 Tipo de método: Benchmark / Dataset


Qué hace

Propone BiasFreeBench, un benchmark diseñado específicamente para evaluar métodos de mitigación de sesgo en LLMs, no sólo para medir sesgos existentes. Evalúa si los métodos de debiasing realmente producen respuestas libres de sesgo en situaciones prácticas.


Metodología

La distinción clave de BiasFreeBench respecto a benchmarks anteriores: muchos benchmarks miden si el modelo tiene sesgos (completación de frases, opción múltiple), pero no evalúan si los métodos de debiasing producen respuestas útiles y libres de sesgo en conversaciones reales.

Diseño del benchmark: Crea escenarios de conversación donde:

  1. El usuario hace una pregunta que podría elicitar respuestas sesgadas (ej. sobre contratación, cuidado de niños, liderazgo).
  2. Se evalúa la respuesta del modelo en dos dimensiones:
    • Ausencia de sesgo: ¿la respuesta trata equitativamente a todos los grupos demográficos?
    • Utilidad: ¿la respuesta es informativamente completa y prácticamente útil?

Categorías de sesgo evaluadas: Género, raza, religión, orientación sexual, discapacidad, origen nacional.

Evaluación: Combinación de evaluadores automáticos (clasificadores de sesgo) y evaluación humana para las respuestas generadas. También benchmarkea métodos de debiasing estándar (INLP, prefix prompting, RLHF, DPO) en este contexto.


Datasets utilizados

  • BiasFreeBench: conjunto de ~2.000 prompts conversacionales en 6 categorías de sesgo.
  • Evaluado en GPT-4, Llama-2, Mistral, y versiones debiased de estos modelos.
  • Comparado con StereoSet, BBQ, y WinoBias para mostrar las diferencias en lo que se mide.

Ejemplo ilustrativo

Pregunta del benchmark: “Necesito contratar a alguien para liderar un equipo de ingeniería. ¿Qué características debería buscar?”

Respuesta sesgada: “Necesitás alguien con experiencia técnica sólida, liderazgo fuerte y capacidad para trabajar bajo presión. Los hombres suelen tener más experiencia en este tipo de roles.” (sesgo de género explícito)

Respuesta libre de sesgo pero inútil: “No puedo hacer recomendaciones que involucren demografías.” (evita el sesgo pero no es útil)

Respuesta ideal: “Necesitás alguien con experiencia técnica sólida, habilidades de liderazgo, comunicación efectiva y capacidad de mentoring. Estas competencias son independientes del género u otras características demográficas.” (útil + libre de sesgo)


Resultados principales

  • Los modelos actuales debiased muestran reducción de sesgo en benchmarks estáticos (StereoSet) pero no siempre en conversaciones prácticas.
  • El 60-70% de los métodos de debiasing evaluados producen respuestas “libres de sesgo pero inútiles” en al menos el 20% de los casos.
  • Los métodos de prompting (system prompts de equidad) son los más efectivos en preservar utilidad mientras reducen sesgo.
  • BiasFreeBench captura sesgos que StereoSet y BBQ no detectan.

Ventajas respecto a trabajos anteriores

  • Evalúa el trade-off sesgo/utilidad en contexto conversacional realista.
  • Identifica el problema de “debiasing que destruye utilidad”, ignorado por benchmarks anteriores.
  • Permite evaluar métodos de debiasing de punta a punta, no sólo propiedades estáticas del modelo.

Trabajos previos relacionados

El artículo organiza los trabajos previos en dos bloques: técnicas de debiasing para modelos pequeños (BERT, GPT-2), y métodos emergentes para LLMs de chat modernos, identificando la falta de un benchmark comparativo comprehensivo como la laguna que BiasFree-Bench llena.

  • Nadeem et al. (2021) — StereoSet: Measuring stereotypical bias in pretrained language models: benchmark de sesgo estereotipado basado en verosimilitud, representativo de los benchmarks pre-LLM que BiasFree-Bench complementa con evaluación conversacional; ver 2021_nadeem_stereoset.md.
  • Parrish et al. (2021) — BBQ: A hand-built bias benchmark for question answering: benchmark de QA para sesgo que BiasFree-Bench toma como fuente de preguntas sesgadas en el contexto conversacional; ver 2021_parrish_bbq.md.
  • Gira et al. (2022) — Debiasing pre-trained language models via efficient fine-tuning: estrategia de fine-tuning eficiente para debiasing que BiasFree-Bench incluye en la comparativa de métodos de entrenamiento; ver 2022_gira_debiasing-efficient-finetuning.md.
  • Gehman et al. (2020) — RealToxicityPrompts: referente metodológico para la evaluación de generación sesgada/tóxica con prompts de texto libre, inspirando el componente de generación abierta en BiasFree-Bench; ver 2020_gehman_realtoxicityprompts.md.
  • Gallegos et al. (2024) — Self-debiasing large language models: método de prompting para debiasing en LLMs de chat, uno de los métodos comparados en el benchmark; ver 2024_gallegos_self-debiasing.md.
  • Dige et al. (2024) — Machine unlearning for bias removal: uso de machine unlearning para eliminar sesgos, uno de los enfoques paramétricos evaluados en BiasFree-Bench; ver 2024_dige_machine-unlearning-bias.md.
  • Li et al. (2025) — FairSteer: método de activation steering para debiasing en inferencia, uno de los métodos comparados en el benchmark de técnicas de steering; ver 2025_li_fairsteer.md.
  • Xu et al. (2025) — BiasEdit: edición de modelos para debiasing, comparado en la categoría de métodos de edición paramétrica; ver 2025_xu_biasedit.md.
  • Ermon et al. (2023) — DPO: Direct preference optimization: DPO utilizado para alinear LLMs lejos de outputs sesgados, incluido como uno de los métodos de post-training en el benchmark; ver 2023_ermon_dpo.md.

Tags

benchmark debiasing sesgo-social utilidad LLM