A finales de abril de este año, la fiscal general de Florida, Ashley Moody, anunció que la fiscalía estatal había iniciado una investigación penal contra la empresa de inteligencia artificial (IA) OpenAI y su chatbot, ChatGPT. La investigación se centra en determinar si ChatGPT actuó como «cómplice» en un trágico tiroteo ocurrido en el campus de la Universidad Estatal de Florida el pasado mes de abril. En respuesta, OpenAI declaró que está cooperando con las autoridades y sostiene que ChatGPT no debería ser considerado responsable de este horrible crimen.

En un informe reciente, el sitio web de la revista científica *Nature* señaló que, aunque OpenAI aún no ha enfrentado cargos formales, esta investigación pone de relieve un dilema fundamental al que se enfrentan las empresas de IA: ¿Por qué resulta tan difícil crear un chatbot que se alinee con las leyes, la ética y los valores humanos?.

Usman Naseem, investigador de la *Large Language Model Alliance* (Alianza de Grandes Modelos de Lenguaje) de la Universidad Macquarie en Australia, considera que, independientemente de si la investigación de Florida conlleva repercusiones legales para OpenAI, esta obligará a las empresas a demostrar la eficacia de sus medidas de seguridad. Mientras tanto, los científicos trabajan incansablemente para «codificar» los valores humanos en los modelos de IA —un proceso conocido como alineación de valores entre humanos e IA—, en un esfuerzo por garantizar que estos sistemas sean, a la vez, útiles y seguros.

Las medidas de seguridad siguen siendo débiles.

En los últimos años, han aumentado las preocupaciones respecto al potencial de los chatbots basados en grandes modelos de lenguaje para generar consejos peligrosos —e incluso ilegales—. Estos riesgos abarcan desde la incitación al suicidio y la fabricación de contenido ilícito hasta la facilitación de fraudes financieros. Sin embargo, en la actualidad, las defensas de seguridad de los sistemas de IA siguen siendo frágiles.

Naseem reveló que los estándares de seguridad actuales para los chatbots son determinados, en gran medida, por las propias empresas, con muy poca supervisión externa. Muchas compañías reconocen la existencia de estos problemas y afirman haber implementado medidas de seguridad para evitar la generación de consejos que pudieran incitar a conductas peligrosas; no obstante, algunos investigadores reclaman la introducción de auditorías de seguridad independientes.

Actualmente, una medida de protección adoptada por algunas empresas es el uso de filtros de contenido, los cuales permiten a las herramientas de IA negarse a responder a solicitudes que contengan palabras clave sensibles específicas. Sin embargo, Toby Walsh, investigador de IA de la Universidad de Nueva Gales del Sur (Australia), señala que, a menudo, los usuarios pueden eludir fácilmente estas salvaguardas. Solo necesitan reformular sus consultas —presentando una intención maliciosa como un escenario hipotético o una premisa ficticia— y las herramientas de IA tienen dificultades para detectar los matices peligrosos ocultos tras estas solicitudes aparentemente inofensivas.

Nassim añade que muchas medidas de seguridad —incluyendo el filtrado de contenido, la formación conductual y las normas de políticas— se reducen, en última instancia, a controles externos en lugar de a una comprensión genuina e intrínseca de la ética o la intencionalidad por parte del sistema. Si bien estos métodos no son del todo inútiles, distan mucho de ser perfectos; los usuarios decididos aún pueden encontrar resquicios que explotar.

Equilibrar seguridad y utilidad.

¿Por qué los chatbots tienen dificultades constantes para comportarse de una manera estrictamente legal y conforme a la normativa?. Parte del problema radica en el hecho de que los grandes modelos de lenguaje (LLM) que impulsan a los chatbots más populares de la actualidad aprenden mediante la «coincidencia de patrones» (pattern matching), en lugar de adherirse a un conjunto rígido de reglas explícitas.

Estos LLM se entrenan con conjuntos de datos masivos de texto extraído de internet. Cuando un usuario plantea una pregunta o proporciona una instrucción, el modelo predice la secuencia de palabras con mayor probabilidad de seguir a continuación. Walsh sostiene que este diseño permite a los LLM responder a casi cualquier cosa —convirtiéndolos en «todoterrenos»— pero, por el contrario, hace exponencialmente más difícil establecer barreras de seguridad sólidas para evitar la generación de contenido inapropiado o dañino.

Nassim subraya que las respuestas generadas por los LLM son meros mosaicos de patrones; no comprenden verdaderamente el significado ni las consecuencias del lenguaje que producen.

Walsh señala que los investigadores ya han intentado anteriormente enseñar a los sistemas de IA a seguir reglas. La IA simbólica —un paradigma dominante en las décadas de 1950 y 1960— se centraba precisamente en programar las computadoras para que se adhirieran estrictamente a reglas predefinidas. Sin embargo, Simon Lucey, investigador de IA en la Universidad de Adelaida (Australia), apunta que este enfoque resulta inadecuado para abordar problemas del mundo real a gran escala, dado que los desarrolladores simplemente no pueden redactar suficientes reglas para abarcar todos los escenarios imaginables.

Walsh sugiere que, para hacer más seguros los LLM existentes, los desarrolladores podrían recurrir al Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF, por sus siglas en inglés). Concretamente, evaluadores humanos analizan los resultados del modelo y lo guían manualmente hacia la generación de respuestas más deseables; no obstante, este proceso exige una cantidad ingente de recursos y resulta prohibitivamente costoso. Otro enfoque consiste en depurar el contenido nocivo de los conjuntos de datos iniciales utilizados para entrenar a los modelos de IA; no obstante, las investigaciones indican que esta estrategia no siempre resulta eficaz. Walsh añade que, para las empresas tecnológicas, el coste de curar manualmente conjuntos de datos tan masivos resulta —una vez más— abrumador. Asimismo, subrayó la necesidad de lograr un delicado equilibrio entre la seguridad y la utilidad: si se imponen demasiadas restricciones al sistema, este pierde su valor práctico.

Los algoritmos subyacentes requieren una reconsideración urgente.

Nassim señaló que los científicos dedicados a la investigación sobre la «alineación entre humanos e IA» están yendo más allá del estrecho ámbito de los detectores de contenido; su objetivo es desarrollar sistemas capaces de identificar con precisión las intenciones maliciosas dentro de hilos conversacionales completos, en lugar de limitarse a marcar problemas aislados.

Lucci reveló que algunos científicos también están trabajando en la «IA neurosimbólica». Este enfoque fusiona la IA simbólica tradicional con las metodologías de redes neuronales. Dichos modelos ya han demostrado su potencial en los campos de la programación informática y las matemáticas; cuando un resultado es defectuoso, el modelo de lenguaje grande recibe retroalimentación inmediata y se ajusta en consecuencia. Sin embargo, en los ámbitos de la ética y el derecho, este tipo de retroalimentación instantánea resulta difícil de lograr, ya que llega con demasiada lentitud —a menudo, solo después de que el daño ya se ha consumado—.

Lucci también señaló que numerosas empresas están invirtiendo actualmente sumas ingentes para adquirir y gestionar conjuntos de datos de mayor envergadura, en un esfuerzo por optimizar sus sistemas, al tiempo que contratan a más personal para proporcionar una retroalimentación de mayor calidad. No obstante, hizo hincapié en que los investigadores de IA deben reexaminar de manera fundamental los algoritmos subyacentes de los modelos de lenguaje grandes, con el fin de construir sistemas de IA que sean verdaderamente capaces de comprender e interiorizar los marcos éticos y jurídicos humanos.

Las medidas de seguridad siguen siendo débiles.

Equilibrar seguridad y utilidad.

Los algoritmos subyacentes requieren una reconsideración urgente.

También podría gustarte

Una organización sin fines de lucro conecta a denunciantes tecnológicos para mejorar la supervisión de la IA

China acaba de innovar en torno a Silicon Valley

Los delincuentes afirman que la herramienta de penetración de IA HexStrike soluciona rápidamente los errores de Citrix