LLM Unlearning & Bias Literature Review

Colección de resúmenes en español de papers sobre machine unlearning, sesgo en LLMs, interpretabilidad mecanística y alineamiento.

Temas

Tema	Papers	Ver
Machine Unlearning	Fundamentos, benchmarks y métodos para el desaprendizaje en LLMs	→ Ver todos
Sesgo en LLMs	Benchmarks, datasets y métodos de mitigación de sesgo	→ Ver todos
Interpretabilidad Mecanística	Circuitos, neuronas y análisis causal de transformers	→ Ver todos
Alineamiento y Preferencias Humanas	RLHF, DPO, red teaming y edición de conocimiento	→ Ver todos