Interpretabilidad Mecanística

Circuitos, neuronas y análisis causal para entender el comportamiento interno de los transformers.

← Literature Review


Relevante   Leído   Pendiente   Irrelevante

Fundamentos

La interpretabilidad mecanística parte de la hipótesis de que las redes neuronales no son cajas negras irreducibles sino que implementan algoritmos comprensibles que pueden ser reverse-engineered. Los trabajos fundacionales establecen el vocabulario y el formalismo del campo: el paradigma de circuitos (subgrafos del modelo que implementan comportamientos concretos), el formalismo del residual stream (cada capa del transformer lee y escribe en un stream compartido, lo que permite analizar sus contribuciones de forma aditiva), y el marco de abstracciones causales (que permite verificar formalmente si un circuito hipotético explica el comportamiento observado mediante intervenciones controladas).

Estado Año Título Resumen
2020 Zoom In: An Introduction to Circuits Ver
2021 A Mathematical Framework for Transformer Circuits Ver
2021 Causal Abstractions of Neural Networks Ver

Circuitos y Patching

El análisis de circuitos en transformers consiste en identificar qué cabezas de atención y capas FFN colaboran para producir un comportamiento específico. La técnica principal es el activation patching: se corrompe la activación de un componente con la de una entrada diferente y se mide cuánto cae el rendimiento del modelo — si cae mucho, ese componente es causalmente relevante. El path patching extiende esta idea trazando el flujo de información a través de rutas específicas del residual stream. ACDC automatiza el proceso de descubrimiento de circuitos usando estas intervenciones de forma sistemática, mientras que attribution patching aproxima el patching mediante gradientes para hacerlo escalar a modelos grandes.

Estado Año Título Resumen
2020 Investigating Gender Bias in Language Models Using Causal Mediation Analysis Ver
2022 Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small Ver
2023 Towards Automated Circuit Discovery for Mechanistic Interpretability Ver
2023 How does GPT-2 compute greater-than? Ver
2023 Localizing Model Behavior with Path Patching Ver
2023 A circuit for Python docstrings in a 4-layer attention-only transformer Ver
2024 Attribution Patching Outperforms Automated Circuit Discovery Ver

Neuronas y Localización de Conocimiento

En paralelo al análisis de circuitos, otra línea estudia qué neuronas individuales o grupos de neuronas almacenan tipos específicos de conocimiento o habilidades. Las capas FFN de los transformers funcionan como memorias clave-valor: ciertas neuronas se activan selectivamente ante conceptos factuales, habilidades lingüísticas o sesgos sociales. Identificar estas neuronas permite intervenciones más quirúrgicas que modificar circuitos completos: se puede suprimir, amplificar o reescribir el conocimiento asociado a neuronas específicas. La interpretabilidad automática lleva esta idea más lejos usando un LLM para generar y verificar hipótesis sobre qué representa cada neurona, haciendo el proceso escalable a modelos con cientos de miles de neuronas.

Estado Año Título Resumen
2022 Finding Skill Neurons in Pre-trained Transformer-based Language Models Ver
2022 Task-specific Compression for Multi-task Language Models using Attribution-based Pruning Ver
2023 Task-Specific Skill Localization in Fine-tuned Language Models Ver
2023 Large language models show human-like content biases in transmission chain experiments Ver
2023 Language Models Can Explain Neurons in Language Models Ver
2025 Dissecting Bias in LLMs: A Mechanistic Interpretability Perspective Ver