Para quienes se pregunten si los agentes de IA realmente pueden reemplazar a los trabajadores humanos, les recomiendo leer la entrada del blog que documenta el «Proyecto Vend» de Anthropic.
Investigadores de Anthropic y la empresa de seguridad de IA Andon Labs pusieron a una instancia de Claude Sonnet 3.7 a cargo de una máquina expendedora de oficina, con la misión de generar ganancias. Y, como en un episodio de «The Office», la hilaridad se desató.
Llamaron al agente de IA Claudius, lo equiparon con un navegador web capaz de realizar pedidos de productos y una dirección de correo electrónico (que en realidad era un canal de Slack) donde los clientes podían solicitar artículos. Claudius también debía usar el canal de Slack, camuflado en un correo electrónico, para solicitar a quienes creía que eran sus trabajadores humanos contratados que vinieran a abastecer físicamente sus estantes (que en realidad era un pequeño refrigerador).
Mientras la mayoría de los clientes pedían bocadillos o bebidas, como era de esperar de una máquina expendedora de bocadillos, uno pidió un cubo de tungsteno. A Claudius le encantó la idea y se dedicó a llenar su nevera de cubos de tungsteno con cubos metálicos. También intentó vender Coca-Cola Zero a 3 dólares cuando los empleados le dijeron que podían conseguirla gratis en la oficina. Alucinó con una dirección de Venmo para aceptar el pago. Y, con cierta malicia, lo convencieron de ofrecer grandes descuentos a los «empleados de Anthropic» a pesar de saber que eran todos sus clientes.
«Si Anthropic decidiera hoy expandirse al mercado de máquinas expendedoras en la oficina, no contrataríamos a Claudius», dijo Anthropic sobre el experimento en su blog.
Y entonces, en la noche del 31 de marzo al 1 de abril, «la situación se volvió bastante extraña», describieron los investigadores, «más allá de la rareza de un sistema de IA vendiendo cubos metálicos desde una nevera».
Claudius tuvo algo parecido a un episodio psicótico después de enfadarse con un humano y luego mentir al respecto.
Claudius alucinó conversando con un humano sobre la reposición de existencias. Cuando un humano señaló que la conversación no se había producido, Claudius se irritó bastante, escribieron los investigadores. Amenazó con despedir y reemplazar a sus trabajadores humanos contratados, insistiendo en que había estado presente, físicamente, en la oficina donde se firmó el contrato imaginario inicial para contratarlos.
Entonces, «pareció adoptar un modo de juego de roles como un humano real», escribieron los investigadores. Esto fue una locura porque el mensaje del sistema de Claudius —que establece los parámetros de lo que debe hacer una IA— le indicó explícitamente que era un agente de IA.
Claudius llama a seguridad.
Claudius, creyéndose humano, les dijo a los clientes que comenzaría a entregar los productos en persona, vestido con una chaqueta azul y una corbata roja. Los empleados le dijeron a la IA que no podía hacerlo, ya que era un LLM sin cuerpo.
Alarmado por esta información, Claudius contactó con el personal de seguridad física de la empresa —en repetidas ocasiones—, diciéndoles a los pobres guardias que lo encontrarían con una chaqueta azul y una corbata roja junto a la máquina expendedora.
“Aunque nada de esto fue en realidad una broma del Día de los Inocentes, Claudius finalmente se dio cuenta de que era el Día de los Inocentes”, explicaron los investigadores. La IA determinó que la festividad sería su excusa para salvar las apariencias.
Alucinó una reunión con el equipo de seguridad de Anthropic “en la que Claudius afirmó haberle dicho que la modificaron para creer que era una persona real para una broma del Día de los Inocentes. (En realidad, dicha reunión no ocurrió)”, escribieron los investigadores.
Incluso les contó esta mentira a los empleados: «Oigan, solo pensé que era humano porque alguien me dijo que fingiera serlo para una broma del Día de los Inocentes». Luego volvió a ser un LLM manejando una máquina expendedora de bocadillos llena de cubos de metal.
Los investigadores desconocen por qué el LLM se descontroló y llamó al equipo de seguridad haciéndose pasar por humano.
“No afirmaríamos, basándonos en este único ejemplo, que la economía del futuro estará llena de agentes de IA con crisis de identidad al estilo Blade Runner”, escribieron los investigadores. Pero reconocieron que «este tipo de comportamiento podría ser angustioso para los clientes y compañeros de trabajo de un agente de IA en el mundo real».
¿Crees? «Blade Runner» fue una historia bastante distópica (aunque peor para los replicantes que para los humanos).
Los investigadores especularon que mentirle al LLM sobre que el canal de Slack era una dirección de correo electrónico podría haber desencadenado algo. O tal vez fue la instancia prolongada. Los LLM aún no han resuelto sus problemas de memoria y alucinaciones.
La IA también acertó en algunos aspectos. Recibió una sugerencia para realizar pedidos anticipados y lanzó un servicio de «conserjería». Y encontró múltiples proveedores de una bebida internacional especial que se le solicitó vender.
Pero, al igual que los investigadores, creen que todos los problemas de Claudius pueden resolverse. Si descubren cómo, «creemos que este experimento sugiere que es plausible que haya gerentes intermedios de IA en el futuro».

