Interpretabilidad Mecanística
Circuitos, neuronas y análisis causal para entender el comportamiento interno de los transformers.
Fundamentos
La interpretabilidad mecanística parte de la hipótesis de que las redes neuronales no son cajas negras irreducibles sino que implementan algoritmos comprensibles que pueden ser reverse-engineered. Los trabajos fundacionales establecen el vocabulario y el formalismo del campo: el paradigma de circuitos (subgrafos del modelo que implementan comportamientos concretos), el formalismo del residual stream (cada capa del transformer lee y escribe en un stream compartido, lo que permite analizar sus contribuciones de forma aditiva), y el marco de abstracciones causales (que permite verificar formalmente si un circuito hipotético explica el comportamiento observado mediante intervenciones controladas).
| Estado | Año | Título | Resumen |
|---|---|---|---|
| 2020 | Zoom In: An Introduction to Circuits | Ver | |
| 2021 | A Mathematical Framework for Transformer Circuits | Ver | |
| 2021 | Causal Abstractions of Neural Networks | Ver |
Circuitos y Patching
El análisis de circuitos en transformers consiste en identificar qué cabezas de atención y capas FFN colaboran para producir un comportamiento específico. La técnica principal es el activation patching: se corrompe la activación de un componente con la de una entrada diferente y se mide cuánto cae el rendimiento del modelo — si cae mucho, ese componente es causalmente relevante. El path patching extiende esta idea trazando el flujo de información a través de rutas específicas del residual stream. ACDC automatiza el proceso de descubrimiento de circuitos usando estas intervenciones de forma sistemática, mientras que attribution patching aproxima el patching mediante gradientes para hacerlo escalar a modelos grandes.
| Estado | Año | Título | Resumen |
|---|---|---|---|
| 2020 | Investigating Gender Bias in Language Models Using Causal Mediation Analysis | Ver | |
| 2022 | Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small | Ver | |
| 2023 | Towards Automated Circuit Discovery for Mechanistic Interpretability | Ver | |
| 2023 | How does GPT-2 compute greater-than? | Ver | |
| 2023 | Localizing Model Behavior with Path Patching | Ver | |
| 2023 | A circuit for Python docstrings in a 4-layer attention-only transformer | Ver | |
| 2024 | Attribution Patching Outperforms Automated Circuit Discovery | Ver |
Neuronas y Localización de Conocimiento
En paralelo al análisis de circuitos, otra línea estudia qué neuronas individuales o grupos de neuronas almacenan tipos específicos de conocimiento o habilidades. Las capas FFN de los transformers funcionan como memorias clave-valor: ciertas neuronas se activan selectivamente ante conceptos factuales, habilidades lingüísticas o sesgos sociales. Identificar estas neuronas permite intervenciones más quirúrgicas que modificar circuitos completos: se puede suprimir, amplificar o reescribir el conocimiento asociado a neuronas específicas. La interpretabilidad automática lleva esta idea más lejos usando un LLM para generar y verificar hipótesis sobre qué representa cada neurona, haciendo el proceso escalable a modelos con cientos de miles de neuronas.
| Estado | Año | Título | Resumen |
|---|---|---|---|
| 2022 | Finding Skill Neurons in Pre-trained Transformer-based Language Models | Ver | |
| 2022 | Task-specific Compression for Multi-task Language Models using Attribution-based Pruning | Ver | |
| 2023 | Task-Specific Skill Localization in Fine-tuned Language Models | Ver | |
| 2023 | Large language models show human-like content biases in transmission chain experiments | Ver | |
| 2023 | Language Models Can Explain Neurons in Language Models | Ver | |
| 2025 | Dissecting Bias in LLMs: A Mechanistic Interpretability Perspective | Ver |