Towards Making Systems Forget with Machine Unlearning

Autores: Yinzhi Cao, Junfeng Yang

Publicado en: IEEE Symposium on Security and Privacy, 2015

Fecha de publicación: 2015-05-18

Tipo de método: Reentrenamiento exacto

Opinión y resumen de Gian

Es un paper muy simple pero a la vez es confuso porque define un nuevo concepto y framework. En este paper se nos va a introducir el concepto de unlearning. Ellos plantean que un modelo no es más que una suma de estadísticos sobre un dataset. Consideren el modelo $\hat{Y} = Ax + b$. Este modelo es el resultado de 4 estadísticos de suma: $S_x$, $S_y$, $S_{xx}$ y $S_{xy}$. Por ejemplo, $S_{xy} = \sum x_i y_i$ por lo que si queremos olvidar $(x_p, y_p)$ simplemente hacemos $S’_{xy} = S_{xy} - x_p y_p$. Esto hace que no tengamos que reentrenar todo, por supuesto esto no aplica a redes neuronales.

machine-unlearning privacidad derecho-al-olvido modelos-lineales eficiencia-computacional

La unica relevancia de este es introducir el concepto de unlearning, no es relevante para nosotros, no hace falta leerlo es de interés histórico simplemente. Tratamos de expresar un modelo en función de sumas para poder facilitar el unlearning. Algunos modelos ya estan expresados así (Naive Bayes, regresión logística), otros se pueden traducir a esta forma pero otros no admiten esta transformación de forma conocida (ej. redes neuronales).

Qué hace

Este paper introduce formalmente el concepto de machine unlearning: la capacidad de un sistema de aprendizaje automático de “olvidar” datos específicos sin necesidad de reentrenar desde cero. Es el trabajo fundacional del área.

Metodología

El problema clave es que los modelos de ML aprenden representaciones que mezclan información de todos los datos de entrenamiento, haciendo que “borrar” un dato sea difícil. La solución propuesta es reformular el proceso de entrenamiento usando sumas estadísticas (summation form).

La idea central es que muchos algoritmos de ML (como regresión logística, SVMs) pueden expresarse como funciones que operan sobre estadísticas agregadas de los datos (sumas, productos) en lugar de sobre los datos individuales directamente. Si el sistema guarda estas sumas intermedias, entonces eliminar el aporte de un dato específico se reduce a restar su contribución de esa suma y actualizar el modelo a partir de las sumas modificadas.

Esto funciona a nivel de los parámetros del modelo completo: no se tocan capas individuales ni neuronas, sino los coeficientes del modelo. Para algoritmos lineales o basados en kernels, el proceso es exacto y muy eficiente.

Para modelos más complejos (como redes neuronales), proponen una aproximación: dividir el modelo en “shards” o fragmentos, donde cada fragmento aprende de un subconjunto de datos. Para olvidar un dato, sólo se re-entrena el fragmento que lo contenía, no el modelo completo.

Datasets utilizados

UCI ML Repository: datasets de clasificación como Adult (ingresos), MNIST (dígitos escritos a mano), datasets de detección de intrusiones de red.
Se usan datasets relativamente pequeños, ya que el contexto de aplicación original es sistemas de ML tradicionales, no LLMs.

Ejemplo ilustrativo

Imaginá que entrenas un clasificador de spam con 10 millones de correos. Luego un usuario pide que se eliminen sus 500 correos del modelo (derecho al olvido — GDPR). Sin machine unlearning, tendrías que reentrenar desde cero con los 9.999.500 correos restantes: horas o días de computación. Con machine unlearning basado en sumatorias, simplemente restás la contribución estadística de esos 500 correos y actualizas los pesos en segundos.

Resultados principales

El método logra olvidar datos específicos de manera exacta (sin rastros estadísticos detectables) para modelos lineales.
La velocidad de desaprendizaje es varios órdenes de magnitud más rápida que el reentrenamiento completo.
Para modelos basados en shards, el overhead de almacenamiento es manejable y el tiempo de desaprendizaje crece logarítmicamente con el tamaño del dataset.

Ventajas respecto a trabajos anteriores

Antes de este paper, la única opción para “olvidar” datos era reentrenar el modelo completamente desde cero, lo cual es prohibitivamente costoso. Este trabajo:

Formaliza el problema de machine unlearning por primera vez.
Propone el primer mecanismo eficiente y con garantías teóricas de olvido exacto.
Establece los criterios que todo método de unlearning debe cumplir: completitud (el dato fue olvidado), rapidez (más rápido que reentrenar), y preservación del rendimiento.

Trabajos previos relacionados

Este paper no tiene una sección formal de “Related Work” —es el trabajo fundacional del área— pero en la introducción y el desarrollo contextualiza el problema frente a trabajos previos en privacidad, seguridad y aprendizaje automático.

Dwork et al. (2006) — Differential Privacy: introduce la privacidad diferencial como garantía matemática de que los datos individuales no pueden inferirse desde el modelo; Cao & Yang la citan como alternativa costosa a su propuesta de unlearning exacto.
Chaudhuri & Monteleoni (2009) — Privacy-preserving logistic regression: uno de los primeros trabajos en entrenamiento con privacidad para modelos de clasificación; motiva la búsqueda de alternativas post-hoc como el unlearning.
Shalev-Shwartz & Ben-David (2014) — Understanding Machine Learning: provee el marco teórico de Empirical Risk Minimization sobre el que Cao & Yang definen formalmente el problema de unlearning.
Ginart et al. (2019) — Making AI Forget You: extiende directamente las ideas de Cao & Yang al caso de datos continuos y k-means, siendo una continuación directa de este trabajo fundacional.
Bourtoule et al. (2021) — Machine Unlearning via SISA: propone el enfoque SISA (Sharded, Isolated, Sliced, Aggregated) de re-entrenamiento eficiente, inspirado directamente en la arquitectura de “shards” de este paper.
Mantelero (2013) — The EU Proposal for a General Data Protection Regulation: artículo legal que formaliza el “derecho al olvido” (Right to be Forgotten), motivación regulatoria central de todo el trabajo de machine unlearning.
Calandrino et al. (2011) — You Might Also Like: Privacy Risks of Collaborative Filtering: demuestra que los sistemas de recomendación memorizan y filtran datos de entrenamiento, contextualizando la amenaza que machine unlearning busca mitigar.