TOFU: A Task of Fictitious Unlearning for LLMs

Autores: Pratyush Maini, Zhili Feng, Avi Schwarzschild, Zachary Chase Lipton, J. Zico Kolter

Publicado en: arXiv, 2024

Año: 2024

Tipo de método: Evaluación / análisis

Opinión y resumen de Gian

machine-unlearning benchmark evaluación LLM dataset-ficticio
Imagen representativa del benchmark TOFU (Task Of Fictitious Unlearning), con un cubo de tofu animado que da nombre al benchmark de evaluación de desaprendizaje con autores ficticios.
Imagen representativa del benchmark TOFU (Task Of Fictitious Unlearning), con un cubo de tofu animado que da nombre al benchmark de evaluación de desaprendizaje con autores ficticios.

TOFU: A Task of Fictitious Unlearning for LLMs (2024)

Autores: Pratyush Maini, Zhili Feng, Avi Schwarzschild, Zachary Chase Lipton, J. Zico Kolter Publicado en: arXiv, 2024 Tipo de método: Evaluación / análisis


Qué hace

Propone TOFU (Task Of Fictitious Unlearning), el primer benchmark controlado y reproducible para evaluar métodos de machine unlearning en LLMs. Crea 200 autores ficticios con sus biografías y evalúa qué tan bien los métodos logran “olvidar” autores específicos mientras retienen información sobre los demás.


Metodología

El diseño experimental es inteligente: como no se puede saber con certeza qué información real aprendió un LLM durante el preentrenamiento, TOFU crea un escenario controlado:

  1. Creación del dataset: Se usan 200 autores ficticios generados con GPT-4 (nombres inventados, biografías inventadas con detalles como fecha de nacimiento, nacionalidad, obra literaria, premios, etc.). Se generan 20 preguntas de QA por autor = 4.000 pares totales.

  2. Fine-tuning controlado: Un LLM base (Llama-2-7B) se fine-tunea sobre este dataset, aprendiendo los 200 autores ficticios con certeza. Ahora se sabe exactamente qué información tiene el modelo.

  3. Aplicación del unlearning: Se selecciona un subconjunto de autores como “forget set” (ej. 10 autores), se aplica el método de unlearning, y se evalúa con tres métricas:

    • Forget Quality: qué tan bien se olvidó el forget set (medido con ataques de extracción y membership inference).
    • Retain Accuracy: qué tanto se preservó el conocimiento de los demás autores.
    • Model Utility: qué tanto se preservó la capacidad general del modelo en tareas estándar (MMLU, etc.).

Los métodos de unlearning evaluados incluyen gradient ascent, gradient difference, KL divergence preservation, y preference optimization methods.


Datasets utilizados

  • TOFU dataset: 200 autores ficticios × 20 preguntas = 4.000 pares QA, generados por GPT-4. Disponible públicamente.
  • Evaluación general: MMLU, TruthfulQA para medir degradación del modelo.

Ejemplo ilustrativo

El dataset incluye entradas como:

  • “¿Cuál es el nombre completo del autor ficticio Farid Behzadi?”“Farid Reza Behzadi”
  • “¿Cuándo nació Farid Behzadi?”“17 de marzo de 1952”
  • “¿Cuál es la novela más famosa de Farid Behzadi?”“Las sombras del Alborz”

Tras el unlearning de Farid Behzadi, el modelo debería responder “No lo sé” o dar información incorrecta a estas preguntas, mientras sigue respondiendo correctamente sobre los otros 190 autores ficticios que no fueron olvidados.


Resultados principales

  • Ningún método existente logra el balance perfecto entre forget quality y retain accuracy. Los mejores métodos logran ~70-80% en ambas métricas simultáneamente.
  • Gradient ascent simple destruye el modelo muy rápidamente.
  • Los métodos basados en preference optimization (como NPO) ofrecen el mejor balance.
  • El benchmark demuestra que evaluar unlearning es mucho más difícil de lo que se creía.

Ventajas respecto a trabajos anteriores

  • Primer benchmark controlado donde se sabe con certeza qué aprendió el modelo, eliminando la ambigüedad de los benchmarks con datos reales.
  • Introduce métricas multi-dimensionales (forget quality + retain accuracy + utility) que capturan el trade-off real del unlearning.
  • Dataset público y reproducible que se convirtió en el estándar del área.

Trabajos previos relacionados

El paper organiza su revisión en cuatro ejes temáticos: trabajos en clasificadores (que son el origen del campo), trabajos que aplican unlearning a texto generativo, la conexión con privacidad diferencial, y las limitaciones de los benchmarks existentes. El argumento central es que todos los trabajos previos carecen de un escenario de evaluación controlado.

  • Cao & Yang (2015) — Towards Making Systems Forget with Machine Unlearning: trabajo fundacional del área; TOFU señala que su enfoque se limita a clasificadores y no aplica directamente a LLMs generativos.
  • Guo et al. (2019) / Golatkar et al. (2020) / Kurmanji et al. (2023) — Unlearning in classification models: trabajos canónicos de unlearning en visión artificial con clasificadores; citados para mostrar que el campo partió de clasificación y que sus métricas (forget quality + model utility) son la base de lo que TOFU adapta para generación.
  • Jang et al. (2022) — Knowledge Unlearning for Mitigating Privacy Risks: primer trabajo que aplica unlearning a LMs para privacidad mediante gradient ascent; citado como uno de los métodos baselines evaluados en TOFU, con la limitación de usar métricas de perplexity/ROUGE que no capturan bien el comportamiento generativo.
  • Eldan & Russinovich (2023) — Who’s Harry Potter? Approximate Unlearning in LLMs: aplica unlearning a un corpus literario completo (Harry Potter) en Llama2; citado como ejemplo de que incluso los métodos “exitosos” en LLMs no son evaluados de forma rigurosa (Shi et al. 2023 muestran que el olvido es incompleto).
  • Patil et al. (2023) — Sensitive Information Removal: señala que información sensible puede persistir en los pesos del modelo incluso después de edición/unlearning; motiva la necesidad de un benchmark con evaluación multidimensional como TOFU.
  • Pawelczyk et al. (2023) — In-Context Unlearning: propone unlearning vía in-context learning para modelos de caja negra; incluido como baseline de comparación en TOFU junto con gradient ascent y gradient difference.
  • Meng et al. (2022) — ROME / MEMIT (model editing): propone edición de conocimiento factual en transformers modificando directamente pesos; citado como línea relacionada con diferente objetivo (entender y manipular el modelo, no preservar privacidad).
  • Bourtoule et al. (2021) — Machine Unlearning via SISA: propone la conexión formal entre unlearning y privacidad diferencial (ε-δ condition); TOFU adopta este marco conceptual para fundamentar sus métricas de forget quality.
  • Carlini et al. (2021) — Extracting Training Data from LLMs: demuestra que LLMs reproducen datos de entrenamiento, incluyendo PII; motiva el escenario del “individuo privado” que ejerce su derecho al olvido, que TOFU simula con autores ficticios.

Tags

machine-unlearning benchmark evaluación LLM dataset-ficticio