Anthropic afirma haber escaneado una parte no revelada de las conversaciones con su modelo de IA Claude para detectar consultas preocupantes sobre armas nucleares.
La compañía creó un clasificador (tecnología que intenta categorizar o identificar contenido mediante algoritmos de aprendizaje automático) para buscar consultas radiactivas. Anthropic ya utiliza otros modelos de clasificación para analizar la interacción con Claude en busca de posibles daños y para bloquear cuentas involucradas en el uso indebido.
Basándose en pruebas con datos sintéticos, Anthropic afirma que su clasificador de amenazas nucleares alcanzó una tasa de detección del 94,8% en preguntas sobre armas nucleares, sin falsos positivos. Los estudiantes de ingeniería nuclear sin duda agradecerán que las conversaciones de Claude relacionadas con sus cursos no se remitan a las autoridades por error.
Con ese nivel de precisión, no más del cinco por ciento de las solicitudes de asesoramiento para la construcción de bombas por parte de terroristas deberían pasar desapercibidas, al menos entre aspirantes a asesinos en masa con tan poco conocimiento de seguridad operativa y nuclear que buscarían ayuda de un chatbot conectado a internet.
Anthropic afirma que el clasificador también funcionó bien al exponerse al tráfico real de Claude, sin proporcionar cifras de detección específicas para datos en vivo. Sin embargo, la compañía sugiere que su clasificador de amenazas nucleares generó más falsos positivos al evaluar conversaciones reales.
«Por ejemplo, los recientes acontecimientos en Oriente Medio volvieron a llamar la atención sobre el problema de las armas nucleares», explicó la compañía en una entrada de blog. «Durante este tiempo, el clasificador nuclear marcó incorrectamente algunas conversaciones que solo estaban relacionadas con estos acontecimientos, no con intentos reales de uso indebido».
Al aplicar una comprobación adicional conocida como resumen jerárquico, que consideraba las conversaciones marcadas en conjunto en lugar de individualmente, Anthropic descubrió que sus sistemas podían etiquetar correctamente las discusiones.
«El clasificador se ejecuta con un porcentaje del tráfico de Claude, no con todo», declaró un portavoz de la empresa. «Se trata de una adición experimental a nuestra Política de Uso de Medidas de Seguridad. En caso de iniciativas como el desarrollo o diseño de explosivos o armas químicas, biológicas, radiológicas o nucleares, tomamos las medidas pertinentes, que podrían incluir la suspensión o cancelación del acceso a nuestros servicios».
A pesar de la ausencia de cifras específicas, el creador del modelo proporcionó una medida cualitativa de la eficacia de su clasificador en el tráfico real: el clasificador detectó al equipo rojo de la propia empresa, que, sin saber de la implementación del sistema, experimentó con indicaciones dañinas.
«El clasificador identificó correctamente estas consultas de prueba como potencialmente dañinas, lo que demuestra su eficacia», escribió la empresa de inteligencia artificial.
Anthropic afirma haber desarrollado su clasificador de amenazas nucleares en colaboración con la Administración Nacional de Seguridad Nuclear (NNSA) del Departamento de Energía de EE.UU. (DOE) como parte de una colaboración que comenzó el año pasado para evaluar los modelos de la empresa en relación con los riesgos de proliferación nuclear.
La NNSA dedicó un año a la formación de Claude en un entorno seguro y posteriormente comenzó a trabajar con Anthropic en un clasificador desarrollado conjuntamente. El reto, según Anthropic, consistió en equilibrar la necesidad de la NNSA de mantener ciertos datos en secreto con los compromisos de Anthropic con la privacidad de los usuarios.
Anthropic espera compartir sus hallazgos con el Frontier Model Forum, un grupo de seguridad de IA compuesto por Anthropic, Google, Microsoft y OpenAI, que se formó en 2023, cuando Estados Unidos parecía interesado en la seguridad de la IA. El grupo no pretende abordar el riesgo financiero que supone un gasto desorbitado en IA.
Oliver Stephenson, director asociado de IA y políticas tecnológicas emergentes de la Federación de Científicos Estadounidenses (FAS), declaró en un comunicado por correo electrónico: «La IA avanza más rápido que nuestra comprensión de los riesgos. Las implicaciones para la no proliferación nuclear aún no están claras, por lo que es importante que vigilemos de cerca cómo los sistemas de IA de vanguardia podrían interactuar con el conocimiento nuclear sensible.
Ante esta incertidumbre, las salvaguardias deben equilibrar la reducción de riesgos y, al mismo tiempo, garantizar la continuidad de las conversaciones científicas, educativas y políticas legítimas. Es positivo ver que Anthropic colabora con la Administración Nacional de Seguridad Nuclear del Departamento de Energía para explorar las medidas de protección adecuadas.
Al mismo tiempo, las agencias gubernamentales deben asegurarse de contar con una sólida experiencia técnica interna en IA para poder evaluar, anticipar y responder continuamente a estos desafíos cambiantes».
En especial, a medida que el gobierno reduce su experiencia nuclear interna.

