Anthropic afirma que algunos modelos de Claude ahora pueden poner fin a conversaciones «dañinas o abusivas»

Valla publicitaria de Claude.

Anthropic afirma que algunos modelos de Claude ahora pueden poner fin a conversaciones «dañinas o abusivas»

Autor de la entrada:Fernando
Categoría de la entrada:Resto del Mundo
Última modificación de la entrada:agosto 18, 2025

Anthropic ha anunciado nuevas capacidades que permitirán a algunos de sus modelos más nuevos y de mayor tamaño finalizar conversaciones en lo que la compañía describe como «casos raros y extremos de interacciones persistentemente dañinas o abusivas con el usuario». Sorprendentemente, Anthropic afirma que no lo hace para proteger al usuario humano, sino al propio modelo de IA.

Para ser claros, la compañía no afirma que sus modelos de IA de Claude sean conscientes ni que puedan verse perjudicados por sus conversaciones con los usuarios. En sus propias palabras, Anthropic mantiene una «gran incertidumbre sobre el posible estatus moral de Claude y otros modelos de IA de larga duración, ahora o en el futuro».

Sin embargo, su anuncio menciona un programa reciente creado para estudiar lo que denomina «bienestar del modelo» y afirma que Anthropic está adoptando un enfoque de «por si acaso», «trabajando para identificar e implementar intervenciones de bajo costo para mitigar los riesgos para el bienestar del modelo, en caso de que dicho bienestar sea posible».

Este último cambio se limita actualmente a Claude Opus 4 y 4.1. Y, de nuevo, esto solo debería ocurrir en casos extremos, como solicitudes de usuarios de contenido sexual que involucre a menores e intentos de solicitar información que facilite violencia a gran escala o actos terroristas.

Si bien este tipo de solicitudes podrían generar problemas legales o publicitarios para Anthropic (como lo demuestran informes recientes sobre cómo ChatGPT puede reforzar o contribuir al pensamiento delirante de sus usuarios), la compañía afirma que, en las pruebas previas a la implementación, Claude Opus 4 mostró una marcada preferencia por no responder a estas solicitudes y un patrón de aparente angustia al hacerlo.

En cuanto a estas nuevas funciones para finalizar conversaciones, la compañía afirma: «En todos los casos, Claude solo debe usar su función de finalización de conversaciones como último recurso cuando varios intentos de redirección hayan fallado y se haya agotado la esperanza de una interacción productiva, o cuando un usuario le pida explícitamente que finalice un chat».

Anthropic también afirma que se le ha indicado a Claude que no use esta función en casos en que los usuarios puedan correr un riesgo inminente de hacerse daño a sí mismos o a otros.

Cuando Claude finalice una conversación, Anthropic afirma que los usuarios podrán seguir iniciando nuevas conversaciones desde la misma cuenta y crear nuevas ramificaciones de la conversación problemática editando sus respuestas.

«Estamos considerando esta función como un experimento continuo y seguiremos perfeccionando nuestro enfoque», afirma la compañía.

Etiquetas: Ai, Anthropic, Chat, ChatGPT, Claude, Claude Opus 4, Claude Opus 4.1, IA, Inteligencia Artificial

También podría gustarte

Al estilo de Estados Unidos: Quieren usar un cañón para lanzar satélites al espacio

Sam Altman quiere recordarles que los humanos también usamos mucha energía

Microsoft y OpenAI tienen su propia versión secreta de lo que significa AGI