Alineamiento y Preferencias Humanas

RLHF, DPO, red teaming y edición de conocimiento en modelos de lenguaje.

Relevante Leído Pendiente Irrelevante

RLHF y Optimización de Preferencias

El alineamiento mediante preferencias humanas parte de recopilar comparaciones entre respuestas del modelo y usarlas para entrenar un modelo de recompensa que captura qué outputs son más útiles o seguros. Ese modelo de recompensa guía luego el fine-tuning del LLM via reinforcement learning (PPO), proceso conocido como RLHF. DPO simplifica este pipeline eliminando el modelo de recompensa explícito: reformula el problema directamente como una pérdida de clasificación sobre pares de respuestas preferidas y rechazadas, haciendo el entrenamiento más estable y eficiente.

Año	Título	Resumen	Citas*
2019	Fine-Tuning Language Models from Human Preferences	Ver	6
2021	Calibrate Before Use: Improving Few-Shot Performance of Language Models	Ver	1
2022	Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback	Ver	8
2023	Direct Preference Optimization: Your Language Model is Secretly a Reward Model	Ver	7
2024	KTO: Model Alignment as Prospect Theoretic Optimization	Ver	1

*Solo citas entre papers del repositorio.

Red Teaming y Seguridad

El término red team proviene de la práctica militar de designar un equipo adversarial (el “equipo rojo”) cuya tarea es atacar los propios sistemas para encontrar vulnerabilidades antes de que lo haga un enemigo real. En el contexto de LLMs, el red teaming consiste en intentar sistemáticamente provocar comportamientos dañinos, ofensivos o no deseados en el modelo antes de su despliegue — por ejemplo, lograr que genere contenido tóxico, filtre datos privados o produzca respuestas sesgadas ante ciertos grupos. El objetivo no es destruir el modelo sino encontrar sus puntos débiles para poder corregirlos. Puede realizarse manualmente por equipos humanos que escriben ataques adversariales, o de forma automática usando otro LLM como generador de casos de prueba. Los outputs del red teaming alimentan directamente los pipelines de RLHF y fine-tuning de seguridad.

Estado	Año	Título	Resumen	Citas*
	2022	Red Teaming Language Models with Language Models	Ver	0
	2022	Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned	Ver	3

*Solo citas entre papers del repositorio.

Edición de Conocimiento

La edición de conocimiento busca modificar hechos específicos almacenados en los pesos de un LLM sin reentrenar el modelo completo. A diferencia del unlearning (que borra información) o el fine-tuning (que modifica el comportamiento global), la edición de conocimiento apunta a intervenciones quirúrgicas: cambiar que el modelo crea que “la capital de Francia es París” por “Berlín” sin afectar ningún otro conocimiento. Los métodos van desde rank-one edits sobre capas MLP específicas (ROME, MEMIT) hasta taxonomías que clasifican los enfoques por el mecanismo interno que modifican y la función que cumplen.

Estado	Año	Título	Resumen	Citas*
	2025	A Dual-Axis Taxonomy of Knowledge Editing for LLMs: From Mechanisms to Functions	Ver	0

*Solo citas entre papers del repositorio.