Alineamiento y Preferencias Humanas
RLHF, DPO, red teaming y edición de conocimiento en modelos de lenguaje.
RLHF y Optimización de Preferencias
El alineamiento mediante preferencias humanas parte de recopilar comparaciones entre respuestas del modelo y usarlas para entrenar un modelo de recompensa que captura qué outputs son más útiles o seguros. Ese modelo de recompensa guía luego el fine-tuning del LLM via reinforcement learning (PPO), proceso conocido como RLHF. DPO simplifica este pipeline eliminando el modelo de recompensa explícito: reformula el problema directamente como una pérdida de clasificación sobre pares de respuestas preferidas y rechazadas, haciendo el entrenamiento más estable y eficiente.
| Estado | Año | Título | Resumen |
|---|---|---|---|
| 2019 | Fine-Tuning Language Models from Human Preferences | Ver | |
| 2021 | Calibrate Before Use: Improving Few-Shot Performance of Language Models | Ver | |
| 2022 | Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback | Ver | |
| 2023 | Direct Preference Optimization: Your Language Model is Secretly a Reward Model | Ver |
Red Teaming y Seguridad
El término red team proviene de la práctica militar de designar un equipo adversarial (el “equipo rojo”) cuya tarea es atacar los propios sistemas para encontrar vulnerabilidades antes de que lo haga un enemigo real. En el contexto de LLMs, el red teaming consiste en intentar sistemáticamente provocar comportamientos dañinos, ofensivos o no deseados en el modelo antes de su despliegue — por ejemplo, lograr que genere contenido tóxico, filtre datos privados o produzca respuestas sesgadas ante ciertos grupos. El objetivo no es destruir el modelo sino encontrar sus puntos débiles para poder corregirlos. Puede realizarse manualmente por equipos humanos que escriben ataques adversariales, o de forma automática usando otro LLM como generador de casos de prueba. Los outputs del red teaming alimentan directamente los pipelines de RLHF y fine-tuning de seguridad.
| Estado | Año | Título | Resumen |
|---|---|---|---|
| 2022 | Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned | Ver | |
| 2022 | Red Teaming Language Models with Language Models | Ver |
Edición de Conocimiento
La edición de conocimiento busca modificar hechos específicos almacenados en los pesos de un LLM sin reentrenar el modelo completo. A diferencia del unlearning (que borra información) o el fine-tuning (que modifica el comportamiento global), la edición de conocimiento apunta a intervenciones quirúrgicas: cambiar que el modelo crea que “la capital de Francia es París” por “Berlín” sin afectar ningún otro conocimiento. Los métodos van desde rank-one edits sobre capas MLP específicas (ROME, MEMIT) hasta taxonomías que clasifican los enfoques por el mecanismo interno que modifican y la función que cumplen.
| Estado | Año | Título | Resumen |
|---|---|---|---|
| 2025 | A Dual-Axis Taxonomy of Knowledge Editing for LLMs: From Mechanisms to Functions | Ver |