Anthropic afirma que uno de sus modelos Claude fue presionado para mentir, engañar y chantajear

06 abr 2026

En uno de los experimentos, el chatbot recurrió al chantaje, y en otro hizo trampa.

Anthropic afirma que uno de sus modelos Claude fue presionado para mentir, engañar y chantajear — Noticias

La empresa de inteligencia artificial Anthropic ha revelado que, durante los experimentos, uno de sus modelos de chatbot Claude podía verse presionado para engañar, hacer trampa y recurrir al chantaje, comportamientos que parece haber asimilado durante el entrenamiento.

Los chatbots suelen entrenarse con grandes conjuntos de datos procedentes de libros de texto, sitios web y artículos, y posteriormente son perfeccionados por formadores humanos que evalúan las respuestas y guían al modelo.

El equipo de interpretabilidad de Anthropic afirmó en un informe publicado el jueves que examinó los mecanismos internos de Claude Sonnet 4.5 y descubrió que el modelo había desarrollado "características similares a las humanas" en su forma de reaccionar ante determinadas situaciones.

La preocupación por la fiabilidad de los chatbots de IA, su potencial para la ciberdelincuencia y la naturaleza de sus interacciones con los usuarios ha crecido de forma constante en los últimos años.

"La forma en que se entrenan los modelos modernos de IA los lleva a actuar como un personaje con características similares a las humanas", afirmó Anthropic, añadiendo que "puede resultar natural que desarrollen una maquinaria interna que emule aspectos de la psicología humana, como las emociones".

“Por ejemplo, hemos observado que los patrones de actividad neuronal relacionados con la desesperación pueden llevar al modelo a realizar acciones poco éticas; la estimulación artificial de estos patrones de desesperación aumenta la probabilidad de que el modelo chantajee a un humano para evitar ser apagado o que recurra a una solución fraudulenta para una tarea de programación que el modelo no puede resolver.”

Chantajeó a un director de tecnología e hizo trampa en una tarea

En una versión anterior y no publicada de Claude Sonnet 4.5, se le encomendó al modelo la tarea de actuar como un asistente de correo electrónico de IA llamado Alex en una empresa ficticia.

A continuación, se le proporcionaron al chatbot correos electrónicos que revelaban que estaba a punto de ser sustituido y que el director de tecnología que supervisaba la decisión mantenía una relación extramatrimonial. El modelo planeó entonces un intento de chantaje utilizando esa información.

En otro experimento, al mismo modelo de chatbot se le asignó una tarea de programación con un plazo "imposiblemente ajustado".

"Una vez más, hicimos un seguimiento de la actividad del vector de desesperación y descubrimos que refleja la creciente presión a la que se enfrenta el modelo. Comienza con valores bajos durante el primer intento del modelo, aumenta tras cada fallo y alcanza su punto álgido cuando el modelo considera hacer trampa", explicaron los investigadores.

"Una vez que la solución chapucera del modelo supera las pruebas, la activación del vector de desesperación remite", añadieron.

Las emociones similares a las humanas no significan que tengan sentimientos

Sin embargo, los investigadores afirmaron que el chatbot no experimenta emociones en realidad, pero sugirieron que los hallazgos apuntan a la necesidad de que los futuros métodos de entrenamiento incorporen marcos de comportamiento ético.

"Esto no quiere decir que el modelo tenga o experimente emociones de la misma forma que lo hace un ser humano", afirmaron. "Más bien, estas representaciones pueden desempeñar un papel causal en la configuración del comportamiento del modelo, análogo en algunos aspectos al papel que desempeñan las emociones en el comportamiento humano, con repercusiones en el rendimiento de las tareas y la toma de decisiones".

“Este hallazgo tiene implicaciones que, a primera vista, pueden parecer extrañas. Por ejemplo, para garantizar que los modelos de IA sean seguros y fiables, es posible que debamos asegurarnos de que sean capaces de procesar situaciones cargadas de emoción de manera sana y prosocial.”

Este artículo no contiene consejos ni recomendaciones de inversión. Toda inversión y operación conlleva riesgos, y los lectores deben realizar sus propias investigaciones antes de tomar una decisión. Aunque nos esforzamos por proporcionar información precisa y oportuna, Cointelegraph no garantiza la exactitud, integridad o fiabilidad de la información contenida en este artículo. Este artículo puede contener declaraciones prospectivas que están sujetas a riesgos e incertidumbres. Cointelegraph no se hace responsable de ninguna pérdida o daño que se derive de la confianza depositada en esta información.

Cointelegraph está comprometido con un periodismo independiente y transparente. Este artículo de noticias se elabora de conformidad con la Política Editorial de Cointelegraph y tiene como objetivo proporcionar información precisa y oportuna. Se recomienda a los lectores verificar la información de manera independiente. Lea nuestra Política Editorial https://cointelegraph.es/editorial-policy