⚠️ Contenido generado con IA — no revisado por Gian. Este resumen fue producido automáticamente y no ha sido validado. Puede contener errores o imprecisiones.

KTO: Model Alignment as Prospect Theoretic Optimization

Autores: Kawin Ethayarajh, Winnie Xu, Niklas Muennighoff, Dan Jurafsky, Douwe Kiela

Publicado en: ICML, 2024

Fecha de publicación: 2024-02-01

Tipo de método: Optimización de preferencias

Opinión y resumen de Gian

alineamiento preferencias-humanas fine-tuning KTO prospect-theory
KTO adapta la teoría prospectiva de Kahneman-Tversky al alineamiento de LLMs: en lugar de pares (preferida, rechazada), trabaja con ejemplos individuales etiquetados como deseables o indeseables, con funciones de valor asimétricas que penalizan más las pérdidas que valoran las ganancias.
KTO adapta la teoría prospectiva de Kahneman-Tversky al alineamiento de LLMs: en lugar de pares (preferida, rechazada), trabaja con ejemplos individuales etiquetados como deseables o indeseables, con funciones de valor asimétricas que penalizan más las pérdidas que valoran las ganancias.

Qué hace

Propone KTO (Kahneman-Tversky Optimization), un método de alineamiento que no requiere pares de preferencias (respuesta buena vs. respuesta mala). En su lugar, trabaja con ejemplos individuales etiquetados como deseables o indeseables, inspirándose en la teoría prospectiva de Kahneman y Tversky: las personas perciben las pérdidas como más impactantes que las ganancias equivalentes, y el objetivo de KTO refleja esta asimetría.


Metodología

DPO requiere que para cada prompt existan dos respuestas comparadas entre sí (una ganadora y una perdedora). Esto limita su aplicabilidad: muchos datasets de feedback real son banales (solo “este output es bueno” o “este output es malo”) sin comparaciones pareadas. KTO elimina este requisito.

La función de valor de Kahneman-Tversky:

La teoría prospectiva describe cómo los humanos evalúan resultados con incertidumbre: la función de valor es cóncava en ganancias (saciedad) y convexa en pérdidas (aversión al riesgo), con una pendiente más pronunciada en el lado negativo. KTO adapta esto al alineamiento:

  • Para una respuesta deseable $y$ dado prompt $x$, la pérdida empuja al modelo a aumentar $\log \pi_\theta(y x) - z_\text{ref}$, donde $z_\text{ref}$ es un término de referencia que actúa como punto de referencia neutral.
  • Para una respuesta indeseable, la pérdida empuja a disminuir ese valor.
  • Los dos lados tienen pesos distintos ($\lambda_D$ y $\lambda_U$) que pueden calibrarse según el ratio de ejemplos deseables e indeseables en el dataset.

Diferencia clave con DPO y NPO:

  • DPO necesita pares $(y_w, y_l)$ para el mismo prompt.
  • NPO usa solo respuestas rechazadas, con el modelo de referencia como ancla.
  • KTO usa ejemplos individuales sin parear, con la función de valor asimétrica como sustituto de la comparación.

Aplicación a unlearning: En el contexto de machine unlearning (Zhang et al., 2024), los ejemplos del forget set se etiquetan como “indeseables” y se aplica solo la mitad negativa de KTO, de forma análoga a como NPO aplica solo la mitad negativa de DPO.


Datasets utilizados

  • Anthropic HH-RLHF: evaluación principal de alineamiento.
  • OpenAssistant: dataset de conversaciones con feedback humano.
  • Comparaciones directas contra DPO, PPO e IPO en tareas de instrucción y helpfulness.

Resultados principales

  • KTO logra resultados equivalentes o superiores a DPO en la mayoría de benchmarks de alineamiento, usando solo datos de feedback no pareado.
  • Es más flexible para escenarios reales donde el feedback es binario (bueno/malo) sin comparaciones explícitas.
  • La asimetría entre ganancias y pérdidas mejora el comportamiento del modelo en casos donde los ejemplos negativos son más informativos.
  • En el contexto de unlearning (TOFU), KTO y KTO+RT quedan por debajo de NPO+RT pero superan a GA en estabilidad.

Ventajas respecto a trabajos anteriores

  • Elimina la necesidad de datos pareados, abriendo DPO-style alignment a datasets de feedback binario.
  • Fundamentación teórica en psicología cognitiva (teoría prospectiva) en lugar de en el modelo de Bradley-Terry.
  • Más robusto a datasets desbalanceados (muchos más ejemplos negativos que positivos o viceversa).

Trabajos previos relacionados

  • Rafailov et al. (2023) — Direct Preference Optimization (DPO): método de alineamiento que KTO generaliza al caso no pareado; la formulación de KTO puede verse como una extensión de DPO que no requiere el par $(y_w, y_l)$ para el mismo prompt.
  • Ziegler et al. (2019) — Fine-Tuning Language Models from Human Preferences: establece el pipeline RLHF que tanto DPO como KTO buscan simplificar.
  • Bai et al. (2022) — Training a Helpful and Harmless Assistant with RLHF: proporciona el dataset HH-RLHF usado como benchmark de evaluación de KTO.
  • Zhang et al. (2024) — Negative Preference Optimization: aplica KTO (y su variante KTO+RT) como baseline en experimentos de machine unlearning sobre TOFU, donde NPO+RT lo supera.
  • Kahneman & Tversky (1979) — Prospect Theory: fundamento teórico de la función de valor asimétrica en la que KTO basa su objetivo de optimización.

Tags

alineamiento preferencias-humanas fine-tuning KTO prospect-theory