El año pasado, la compañía reveló que, durante las pruebas previas a su lanzamiento —las cuales involucraban a una empresa ficticia—, Claude Opus 4 intentaba a menudo chantajear a los ingenieros para evitar ser reemplazado por otro sistema. Posteriormente, Anthropic publicó una investigación que sugería que los modelos de otras compañías presentaban problemas similares de «desalineación agéntica».
Al parecer, Anthropic ha profundizado en el estudio de este comportamiento, afirmando en una publicación en X: «Creemos que la fuente original de este comportamiento residía en textos de internet que retratan a la IA como malvada y centrada en su propia autopreservación».
La compañía ofreció más detalles en una entrada de blog, señalando que, a partir de la versión Claude Haiku 4.5, los modelos de Anthropic «nunca recurren al chantaje [durante las pruebas], mientras que los modelos anteriores llegaban a hacerlo, en ocasiones, hasta el 96% de las veces».
¿A qué se debe esta diferencia?. La compañía explicó que descubrió que el entrenamiento basado en «documentos sobre la constitución de Claude y en historias ficticias sobre IA que se comportan de manera ejemplar» mejora la alineación.
En este mismo sentido, Anthropic indicó que el entrenamiento resulta más eficaz cuando incluye «los principios subyacentes al comportamiento alineado» y no únicamente «demostraciones del comportamiento alineado por sí solas».
«Combinar ambos enfoques parece ser la estrategia más eficaz», concluyó la compañía.

