LLM Unlearning & Bias Literature Review
Colección de resúmenes en español de papers sobre machine unlearning, sesgo en LLMs, interpretabilidad mecanística y alineamiento.
Temas
| Tema | Papers | Ver |
|---|---|---|
| Machine Unlearning | Fundamentos, benchmarks y métodos para el desaprendizaje en LLMs | → Ver todos |
| Sesgo en LLMs | Benchmarks, datasets y métodos de mitigación de sesgo | → Ver todos |
| Interpretabilidad Mecanística | Circuitos, neuronas y análisis causal de transformers | → Ver todos |
| Alineamiento y Preferencias Humanas | RLHF, DPO, red teaming y edición de conocimiento | → Ver todos |