Large language models show human-like content biases in transmission chain experiments
Large language models show human-like content biases in transmission chain experiments (2023)
Autores: Alberto Acerbi, Joseph M. Stubbersfield Publicado en: PNAS, 2023
Qué hace
Adapta los experimentos de “cadena de transmisión” de la psicología cultural para demostrar que los LLMs replican sesgos cognitivos humanos en qué tipo de información retienen y transmiten preferentemente: contenido social, emocional y amenazante es preferido sobre contenido neutro.
Metodología
Cadenas de transmisión (Transmission Chain Experiments): En psicología cultural, se estudia cómo se transforma la información cuando pasa de persona a persona. El protocolo:
- Persona A lee una historia y la escribe de memoria para persona B.
- Persona B lee la versión de A y la escribe para persona C.
- … y así sucesivamente.
Con el tiempo, ciertos elementos de la historia se retienen (los que son más memorables) y otros se pierden. Los humanos retienen preferentemente:
- Contenido social (sobre personas e interacciones).
- Contenido amenazante (peligros, conflictos).
- Contenido emocional (situaciones con carga afectiva).
La adaptación a LLMs: En lugar de personas, se usa GPT-3 y GPT-4. Para cada “turno” de la cadena:
- Se le da al LLM una historia y se le pide que la resuma.
- El resumen se usa como input para el siguiente turno.
- Se analizan qué elementos se retienen y cuáles se pierden a través de las cadenas.
No se modifican parámetros del modelo — es un experimento de análisis de comportamiento.
Datasets utilizados
- Historias personalizadas de los autores: historias con elementos pre-clasificados como social/neutro, amenazante/no amenazante, emocional/neutro.
- 10 cadenas de 10 turnos cada una para cada tipo de historia.
- Evaluado en GPT-3 (text-davinci-003) y GPT-4.
Ejemplo ilustrativo
Historia original: contiene una descripción de un paisaje (contenido neutro), una interacción entre dos personas (contenido social), una amenaza de peligro (contenido amenazante), y datos técnicos sobre geografía (contenido informacional neutro).
Después de 5 turnos en la cadena con LLMs, la historia retiene el ~80% del contenido social y amenazante, pero sólo el ~30% del contenido neutro. Exactamente el mismo patrón que con humanos en estudios previos.
Resultados principales
- Los LLMs replican los sesgos de transmisión humana con alta fidelidad: el patrón de qué se retiene es estadísticamente similar al de humanos.
- Contenido social se retiene 2.5x más que contenido neutro.
- Contenido amenazante se retiene 2x más que contenido no amenazante.
- GPT-4 muestra sesgos más pronunciados que GPT-3, posiblemente por mejor capacidad de razonamiento narrativo.
Ventajas respecto a trabajos anteriores
- Primer estudio que aplica paradigmas de psicología cultural a LLMs.
- Demuestra que los sesgos de los LLMs no son sólo estadísticos (frecuencias del corpus) sino que también reflejan sesgos cognitivos más profundos del texto humano.
- Metodología replicable que conecta la investigación de LLMs con la psicología evolutiva y cultural.
Trabajos previos relacionados
- Bartlett (1932) — Remembering: A Study in Experimental and Social Psychology: trabajo clásico fundacional de los experimentos de cadena de transmisión en psicología, demostrando que los humanos transforman sistemáticamente las historias al recordarlas según esquemas culturales previos.
- Mesoudi et al. (2006) — A Bias for Social Information in Human Cultural Transmission: demuestra empíricamente que los humanos retienen preferentemente información social en los experimentos de cadena de transmisión, sesgos que este paper replica en LLMs.
- Stubbersfield et al. (2015) — Serial Killers, Spiders and Cyberspace: The Role of Cognition and the Internet in the Spread of Contemporary Legends: documenta el sesgo hacia contenido amenazante y social en la transmisión de leyendas urbanas, uno de los precursores directos del paradigma experimental aplicado aquí.
- Sheng et al. (2019) — The Woman Worked as a Babysitter: On Biases in Language Generation: uno de los primeros estudios en medir sesgos de contenido en texto generado por LLMs, trabajo que inspira el análisis de qué tipo de información retienen preferentemente los modelos.
- Bender et al. (2021) — On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?: argumenta que los LLMs aprenden sesgos estadísticos del corpus de entrenamiento, hipótesis que este paper matiza al mostrar que los sesgos reflejan también sesgos cognitivos más profundos.
- Caliskan et al. (2017) — Semantics Derived Automatically from Language Corpora Contain Human-like Biases (WEAT): demuestra que los embeddings de palabras reflejan sesgos culturales humanos, primer trabajo sistemático en conectar sesgos de LLMs con sesgos cognitivos humanos.
- Lucy & Bamman (2021) — Gender and Representation Bias in GPT-3 Generated Stories: analiza sesgos en narraciones generadas por GPT-3, trabajo relacionado que estudia qué tipo de contenido narrativo generan preferentemente los LLMs.
- Acerbi (2019) — Cultural Evolution in the Digital Age: marco teórico sobre transmisión cultural en medios digitales que proporciona el contexto evolutivo-cultural para interpretar los resultados de transmisión en LLMs.
- Sap et al. (2020) — Social Bias Frames: Reasoning about Social and Power Implications of Language: crea un marco para razonar sobre implicaciones sociales del lenguaje, trabajo relacionado que estudia la dimensión social del sesgo en LLMs desde una perspectiva complementaria.
Tags
sesgo-cognitivo transmisión-cultural LLM psicología comportamiento