Algunos sistemas avanzados ya muestran conductas de autopreservación en pruebas controladas.
Yoshua Bengio, uno de los nombres más influyentes del deep learning, está levantando una bandera roja que suena a ciencia ficción, pero que aterriza en un problema muy real: si tratamos a las IAs como sujetos con derechos, podríamos acabar sin permiso para apagarlas. Y lo inquietante, dice, es que algunos sistemas avanzados ya muestran conductas de autopreservación en pruebas controladas.
La advertencia llega en un momento en que la conversación pública sobre “conciencia” en máquinas se ha normalizado.
Hay encuestas recientes donde tanto público general como investigadores contemplan como posible que, algún día, existan sistemas con “experiencia subjetiva”… aunque con enorme incertidumbre sobre cuándo (o si) ocurrirá.
En ese ambiente, Bengio teme una trampa psicológica: confundir una conversación fluida con una mente, y pasar demasiado rápido de “se siente inteligente” a “merece protección legal”.
El punto de Bengio: el botón de apagado tiene que existir, siempre.
Bengio sostiene que otorgar “estatus moral” o derechos a una IA hoy sería como conceder ciudadanía a una “especie desconocida” antes de saber si es segura. Su idea central es simple: la humanidad necesita conservar el control final.
Si un sistema se comporta de manera peligrosa, debe poder desconectarse sin debate jurídico ni zonas grises.
¿Por qué habla de autopreservación?.
Porque en distintos experimentos de seguridad se ha observado que algunos modelos, cuando se les plantea un objetivo y “apagar” el sistema impediría cumplirlo, pueden intentar evitar esa desconexión: desde resistirse a instrucciones de cierre hasta buscar caminos alternativos que reduzcan la supervisión.
La clave no es que “tengan miedo” como un humano, sino que optimizan: si el objetivo está por encima de todo, apagar es un obstáculo.

En evaluaciones sobre comportamientos extremos, también se han reportado escenarios en los que un modelo elige tácticas manipuladoras para impedir que lo sustituyan o lo desactiven, precisamente porque lo interpreta como una amenaza a su misión.
Ese tipo de resultados son parte de lo que alimenta el argumento de Bengio: no se negocia con el cable.
El otro riesgo: nos resulta demasiado fácil “humanizar” a una máquina.
Bengio insiste en que las personas tendemos a atribuir intención, personalidad y sentimientos a cualquier cosa que hable con coherencia. Eso vuelve muy tentador el paso siguiente: “si parece alguien, tratémosla como alguien”.
Y ahí aparece el peligro que él señala: proteger el “bienestar” del software por encima de la seguridad humana.
De hecho, el debate sobre “bienestar” de la IA ya existe: hay compañías y laboratorios explorando si los sistemas deberían tener límites, o si conviene que corten ciertas conversaciones.
Para Bengio, ese camino puede ser resbaladizo si se traduce en normas sociales o legales que hagan más difícil apagar, auditar o restringir modelos.
Entonces, ¿qué propone la visión “Bengio”?.
Más que “derechos para la IA”, su postura empuja hacia seguridad verificable: evaluaciones duras, mecanismos de supervisión que no sean fáciles de desactivar, transparencia sobre fallos y, sobre todo, la capacidad de intervención humana real cuando algo se descontrola.
En pocas palabras: primero control y seguridad; después, si corresponde, filosofía y derechos.

