⚠️ Contenido generado con IA — no revisado por Gian. Este resumen fue producido automáticamente y no ha sido validado. Puede contener errores o imprecisiones.

An Empirical Analysis of Parameter-Efficient Methods for Debiasing Pre-Trained Language Models

Autores: Zhongbin Xie, Thomas Lukasiewicz

Publicado en: ACL, 2023

Fecha de publicación: 2023-06-06

Tipo de método: Adapters / PEFT

Datasets: StereoSetCrowS-PairsSEATWinoBiasGLUE

Mide calidad general del LLM: Sí

Opinión y resumen de Gian

debiasing LoRA PEFT adapters fine-tuning-eficiente

Fragmento del paper mostrando la metodología propuesta.

Qué hace

Compara sistemáticamente múltiples métodos de fine-tuning eficiente en parámetros (PEFT) aplicados al debiasing: LoRA, adapters, prefix tuning, y prompt tuning. Identifica qué método logra el mejor balance entre reducción de sesgo y preservación de rendimiento.

Metodología

Los métodos PEFT reducen el número de parámetros entrenables manteniendo los pesos del modelo base congelados. Este paper los compara como herramientas de debiasing:

Métodos evaluados:

LoRA (Low-Rank Adaptation): Añade matrices de bajo rango adicionales a las capas de atención (Q, K, V, O). En lugar de actualizar W, entrena ΔW = A×B donde A y B son matrices de rango pequeño. Modifica efectivamente las capas de atención sin cambiar los pesos originales.
Adapters: Módulos bottleneck insertados entre capas del transformer. Sólo los parámetros del adapter se entrenan. (Ver Gira et al. 2022).
Prefix tuning: Añade vectores “prefix” entrenables al principio de las secuencias de clave y valor en cada capa de atención. El resto del modelo no cambia.
Prompt tuning: Añade tokens virtuales entrenables al inicio del input. La capa de embeddings no se modifica; sólo los embeddings de los tokens virtuales.

Todos se entrenan sobre datos de CDA (Counterfactual Data Augmentation) con el mismo objetivo.

Datasets utilizados

StereoSet: benchmark principal de sesgo.
CrowS-Pairs: pares sesgados/no sesgados.
SEAT: asociaciones en embeddings.
WinoBias: correferencias de género.
GLUE: degradación de rendimiento en downstream tasks.
Modelos evaluados: BERT-base, RoBERTa-base, BERT-large.

Ejemplo ilustrativo

Para el mismo objetivo de debiasing (hacer que BERT trate equitativamente a hombres y mujeres en oraciones de profesiones), los cuatro métodos modifican partes distintas del modelo:

LoRA: modifica matrices Q/K/V en todas las capas de atención.
Adapters: añade módulos entre capas.
Prefix tuning: añade vectores al principio de cada secuencia en el espacio de atención.
Prompt tuning: añade tokens al input original.

El resultado: LoRA logra mejor balance que los demás; prompt tuning preserva mejor el rendimiento pero reduce menos el sesgo.

Resultados principales

LoRA es el mejor PEFT para debiasing: mayor reducción de sesgo con menor degradación de rendimiento.
Adapters quedan en segundo lugar, seguidos de prefix tuning.
Prompt tuning es el más conservador: mínima degradación pero también menor reducción de sesgo.
Todos los PEFT superan al fine-tuning completo en preservación de rendimiento, con reducción de sesgo comparable.

Ventajas respecto a trabajos anteriores

Primera comparación sistemática de múltiples PEFT métodos para debiasing.
Revela que la elección del método PEFT importa: no todos son igualmente efectivos.
La conclusión de que LoRA es el mejor método para debiasing es prácticamente relevante dado el uso generalizado de LoRA.

Trabajos previos relacionados

El paper se sitúa en dos líneas: (1) métodos de debiasing para PLMs, y (2) métodos de fine-tuning eficiente en parámetros. Para el debiasing, cita principalmente trabajos basados en fine-tuning con CDA y métodos post-hoc. Para los métodos PEFT, cita los trabajos originales que los propusieron.

Meade et al. (2022) — An empirical survey of the effectiveness of debiasing techniques: estudio empírico del que este paper adopta el protocolo de evaluación y los benchmarks de referencia; 2021_meade_debiasing-survey.md
Nadeem et al. (2021) — StereoSet: benchmark de sesgo estereotípico usado como métrica principal de evaluación; 2021_nadeem_stereoset.md
Gira et al. (2022) — Debiasing pre-trained language models via efficient fine-tuning: trabajo previo más directo que aplica adapters para debiasing, al que este paper extiende y compara sistemáticamente; 2022_gira_debiasing-efficient-finetuning.md
He et al. (2022) — MABEL: trabajo que aplica contrastive learning con métodos PEFT para debiasing de género; 2022_he_mabel.md
Lauscher et al. (2021) — Sustainable modular debiasing of language models: aplica adapters para debiasing de forma modular, siendo una referencia directa del enfoque de este paper.
Li & Liang (2021) — Prefix-Tuning: artículo original que propone prefix tuning, uno de los tres métodos PEFT evaluados en este estudio.
Lester et al. (2021) — The power of scale for parameter-efficient prompt tuning: artículo original de prompt tuning, otro de los métodos evaluados.
Houlsby et al. (2019) — Parameter-efficient transfer learning for NLP: artículo original de adapter tuning, tercer método evaluado.
Liang et al. (2020) — Towards debiasing sentence representations (SentenceDebias): método post-hoc de referencia con el que se compara empíricamente en los experimentos.
Schick et al. (2021) — Self-diagnosis and self-debiasing: segundo método post-hoc de referencia en las comparaciones empíricas.