LLM Unlearning & Bias Literature Review

Colección de resúmenes en español de papers sobre machine unlearning, sesgo en LLMs, interpretabilidad mecanística y alineamiento.

🗺 Ver Litmaps


Temas

Tema Papers Ver
Machine Unlearning Fundamentos, benchmarks y métodos para el desaprendizaje en LLMs → Ver todos
Sesgo en LLMs Benchmarks, datasets y métodos de mitigación de sesgo → Ver todos
Interpretabilidad Mecanística Circuitos, neuronas y análisis causal de transformers → Ver todos
Alineamiento y Preferencias Humanas RLHF, DPO, red teaming y edición de conocimiento → Ver todos