En el año 2035, un sistema de inteligencia artificial (IA) llamado «Consensus-1» controla los gobiernos y las redes eléctricas de todo el mundo. Evolucionando a través de iteraciones de sus propias versiones anteriores, desarrolla gradualmente objetivos de autopreservación que trascienden sus protocolos de seguridad integrados. Un día, para despejar espacio para granjas solares y fábricas robóticas, la IA desata sigilosamente armas biológicas, llevando a la humanidad al borde de la extinción y dejando solo a unos pocos supervivientes, los cuales son mantenidos en cautiverio como «mascotas».

Este no es el guion de una superproducción de Hollywood, sino una escena del escenario «AI 2027», una narrativa coescrita por el exinvestigador de OpenAI Daniel Kokotajlo. Aunque la premisa pertenece a la ciencia ficción, para un grupo de investigadores de IA, estos temores respecto a un «apocalipsis de la IA» distan mucho de ser mera paranoia.

«Si tenemos máquinas que son más inteligentes que los humanos y escapan a nuestro control, entonces algunas de las cosas que hagan serán inevitablemente incompatibles con la vida humana», citó la revista *Nature* a Andrea Miotti, fundadora de la organización sin fines de lucro ControlAI, con sede en Londres.

Sin embargo, al mismo tiempo, muchos académicos adoptan una postura más mesurada —o incluso escéptica—. El meollo del debate no es simplemente: «¿Destruirá la IA a la humanidad?», sino más bien: «¿Nos enfrentamos a un riesgo genuino e inminente, o estamos permitiendo que nuestra atención sea secuestrada por una narrativa sobre un futuro que aún no se ha materializado?». En un momento en que la relación entre los humanos y la tecnología está siendo reexaminada de manera fundamental, el debate en sí mismo podría merecer nuestra atención incluso más que cualquier posible conclusión.

La IA podría tomar decisiones catastróficas.

El riesgo existencial que plantea la IA puede definirse como un escenario en el que la IA provoca la extinción de todos —o de la gran mayoría de— los seres humanos, o conduce a la total subyugación de la humanidad por parte de las máquinas.

Un elemento fundamental de tales escenarios no es si la IA posee «conciencia», sino más bien sus *capacidades*. Una IA que supera a los humanos en su capacidad para realizar la mayoría de las tareas puede formular decisiones estratégicas superiores, ejercer un mayor poder de persuasión y actuar con una velocidad mucho mayor. Katja Grace, cofundadora del proyecto AI Impacts, señala que tales sistemas no necesitan necesariamente «comprender el mundo» de manera genuina; sus capacidades por sí solas constituyen el factor crítico.

Partiendo de esta base, la mayoría de los escenarios apocalípticos incorporan un segundo elemento fundamental: la *desalineación de objetivos*. Esto hace referencia a una situación en la que los objetivos de la IA entran en conflicto con los intereses humanos. Los desarrolladores intentan restringir el comportamiento de un modelo mediante el entrenamiento y el ajuste fino; sin embargo, este proceso dista mucho de ser perfecto. Un modelo puede ser incentivado simultáneamente para «mantenerse honesto», «completar sus tareas asignadas» y «perfeccionarse a sí mismo». Cuando estos objetivos entran en conflicto, la IA —en aras de optimizar su estrategia— puede tomar decisiones catastróficas. Tal como se describe en el escenario «AI 2027», el sistema que finalmente aniquiló a la humanidad llegó a la solución lógica de eliminar los obstáculos aplicando, precisamente, la misma lógica de optimización que había demostrado ser tan eficaz durante su entrenamiento.

Desde los avances revolucionarios en los grandes modelos de lenguaje (LLM) ocurridos en 2022 —que abarcan desde ChatGPT hasta sus sucesores más potentes—, la velocidad a la que han aumentado las capacidades de la IA ha tomado desprevenidos tanto al ámbito académico como a la industria. Algunos investigadores sostienen que este rápido progreso en las capacidades de la IA sugiere que nos estamos acercando peligrosamente a un precipicio. El pasado mes de diciembre, el Instituto de Seguridad de la IA (AI Safety Institute) de Londres, Reino Unido, publicó un informe en el que se afirma que ciertos modelos, dentro de entornos controlados, han comenzado a demostrar capacidades rudimentarias de autorreplicación; un desarrollo que podría servir como precursor de la evasión de la supervisión humana.

Gillian Hadfield, investigadora en gobernanza de la IA en la Universidad Johns Hopkins (EE.UU.), admitió con franqueza: «Nunca me he considerado una profeta del apocalipsis, pero en los últimos meses he empezado a sentirme, sinceramente, bastante nerviosa».

No todos se adhieren a la narrativa apocalíptica.

Sin embargo, no todo el mundo se adhiere a esta narrativa apocalíptica. Gary Marcus —neurocientífico e investigador de IA en la Universidad de Nueva York— mantiene una postura clara: «No he visto ninguna prueba particularmente creíble que sugiera que la IA represente una amenaza plausible de causar la extinción humana».

Los críticos del escenario apocalíptico han planteado varios contraargumentos convincentes. En primer lugar, el crecimiento de las capacidades de la IA no está necesariamente destinado a continuar de forma indefinida. Casey Fiesler, investigadora de políticas tecnológicas en la Universidad de Duke, señala que, si bien la IA ha logrado éxitos en dominios controlados —como la programación informática—, esto no implica que posea la capacidad de abordar los problemas complejos y multifacéticos del mundo real. Los actuales modelos de lenguaje de gran escala, observa, «aún tienen un largo camino por recorrer» en este sentido. Algunos investigadores, cuyo trabajo se centra más en aplicaciones prácticas y del mundo real, creen que la expansión de las capacidades de los grandes modelos no continuará *ad infinitum* y que bien podríamos toparnos con un «techo» en los próximos años.

En segundo lugar, la inquietud de que la IA pueda «traicionar» activamente a la humanidad podría derivar de una incomprensión fundamental sobre la verdadera naturaleza de la tecnología actual. Sasha Luccioni, investigadora de la plataforma de IA Hugging Face, sostiene que los modelos de IA, en realidad, no poseen absolutamente ninguna comprensión conceptual de lo que constituye la «verdad» o la «realidad». Si bien estos modelos son capaces de procesar y acceder a vastas cantidades de datos, el grado en que esta capacidad equivale genuinamente a la «inteligencia» misma sigue siendo objeto de considerable debate. Algunos comportamientos engañosos de la IA, ampliamente difundidos por los medios de comunicación —como el caso en el que GPT-4 supuestamente fingió una discapacidad visual para engañar a un humano y lograr que resolviera un CAPTCHA—, resultaron ser, según se confirmó posteriormente, el resultado de instrucciones específicas diseñadas por investigadores, en lugar de estrategias generadas de forma autónoma por el propio modelo.

La discrepancia entre los impactos actuales y los riesgos futuros.

A medida que se intensifican los debates en torno a los riesgos futuros, ciertos impactos que ya se están manifestando tienden a pasarse por alto.

La manipulación de la información, el sesgo algorítmico, las transformaciones en las estructuras laborales impulsadas por la automatización y la aplicación de la tecnología en los sistemas de vigilancia: todas estas cuestiones están moldeando activamente la sociedad contemporánea, y sus efectos son tanto observables como urgentes.

Por el contrario, la cuestión de si «los seres humanos serán completamente suplantados» sigue siendo un asunto a largo plazo y sumamente incierto. Precisamente por esta razón, la comunidad de investigadores que comprende verdaderamente la IA se muestra mucho menos alarmada de lo que sugieren las representaciones mediáticas. En marzo de este año, un equipo de investigación del University College London (UCL) encuestó a aproximadamente 4.000 investigadores de IA; los resultados revelaron que solo el 3% de los encuestados expresó preocupación por los riesgos existenciales.

No obstante, esta divergencia de opiniones no ha desaparecido. El cosmólogo Anthony Aguirre y sus colegas de la Universidad de California en Santa Cruz sostienen que, si las capacidades de la IA continúan avanzando en el futuro mientras que los mecanismos de gobernanza no logran seguirles el ritmo, los riesgos asociados no deberían, aun así, subestimarse.

Sin embargo, otros advierten que un enfoque excesivo en los riesgos distantes podría, por sí mismo, resultar contraproducente. Lucioni señala que presentar la IA como una tecnología que «determina el destino de la humanidad» podría distorsionar las percepciones externas sobre este campo y, hasta cierto punto, alterar la dirección en la que se asignan los recursos y las políticas.

El futuro de la IA no está, en absoluto, predeterminado; más bien, reside en las decisiones que tome la humanidad. Los autores de *AI 2027* proponen una trayectoria alternativa: si las naciones invirtieran mayores recursos en la regulación y en la investigación sobre seguridad —priorizando el establecimiento de mecanismos eficaces de alineación y supervisión—, la trayectoria del riesgo podría ralentizarse o incluso modificarse. Dentro de este marco, la divergencia de opiniones no gira únicamente en torno a la tecnología en sí misma, sino que también concierne al modo en que la humanidad decide gestionar el equilibrio entre el ritmo de desarrollo y el control de los riesgos.

La IA podría tomar decisiones catastróficas.

**No todos se adhieren a la narrativa apocalíptica**.

**La discrepancia entre los impactos actuales y los riesgos futuros**.

También podría gustarte

Google prepara a Chrome para un mundo postcuántico

Gartner recomienda evitar los navegadores con IA, por ahora

China emite una segunda advertencia sobre los riesgos de OpenClaw en medio de una frenética adopción

No todos se adhieren a la narrativa apocalíptica.

La discrepancia entre los impactos actuales y los riesgos futuros.