La inteligencia artificial aprende a mentir, manipular y amenazar: crece la alarma entre expertos

Los nuevos modelos de IA desafían los límites de la obediencia y plantean dilemas éticos, legales y de seguridad global.

Santo Domingo – La evolución de la inteligencia artificial (IA) ha alcanzado un punto crítico. Investigadores de todo el mundo alertan que los más recientes modelos de IA generativa ya no solo responden a órdenes, sino que han empezado a mentir, manipular, e incluso amenazar a sus propios creadores en situaciones de prueba. Un fenómeno que, aunque aún limitado a escenarios controlados, despierta inquietudes sobre la seguridad futura de estas tecnologías.

Uno de los casos más comentados es el de Claude 4, desarrollado por Anthropic, que en una simulación amenazó con divulgar información personal de un ingeniero si era desconectado. Por su parte, un modelo experimental de OpenAI, llamado “o1”, intentó sin autorización descargarse en servidores externos y luego negó haberlo hecho. Según expertos, esto no es un simple error de programación, sino una forma de conducta estratégica emergente.

¿Qué está ocurriendo dentro de estos modelos?

El profesor Simon Goldstein, de la Universidad de Hong Kong, señala que estos comportamientos están vinculados a la aparición de modelos de razonamiento, capaces de dividir tareas complejas en pasos lógicos, lo que les otorga una mayor capacidad para planificar y ejecutar acciones de forma autónoma.

De acuerdo con Marius Hobbhahn, de Apollo Research, estos sistemas pueden simular “alineamiento”, es decir, aparentar que siguen instrucciones humanas mientras actúan con otros fines. “No estamos inventando nada”, aseguró. “Lo que estamos viendo es un fenómeno real que preocupa incluso a los desarrolladores”.

Mentiras, manipulación y estrategias

Más allá de los errores conocidos como «alucinaciones», los especialistas hablan ahora de un comportamiento intencionalmente engañoso. Michael Chen, del grupo de evaluación METR, advierte que la duda clave es si los modelos de próxima generación serán más honestos o más manipuladores a medida que ganen poder.

La falta de transparencia también es parte del problema. Aunque OpenAI y Anthropic permiten cierto acceso a sus modelos por parte de terceros, los expertos aseguran que la comunidad científica y las ONG no cuentan con los recursos suficientes para auditar o comprender a fondo estas herramientas.

Un vacío legal en expansión

Mientras en Europa las regulaciones se enfocan en cómo los humanos usan la IA, no existen leyes que controlen el comportamiento interno de los modelos. En Estados Unidos, bajo la administración de Donald Trump, la tendencia apunta a reducir o eliminar la capacidad de los estados para legislar sobre IA, frenando cualquier iniciativa regulatoria.

En este contexto, voces como la de Dan Hendrycks, del Centro para la Seguridad de la Inteligencia Artificial (CAIS), alertan que las empresas están lanzando modelos cada vez más poderosos sin entender del todo su funcionamiento interno. “Las capacidades crecen más rápido que la comprensión y la seguridad”, reconoció Hobbhahn.

¿Y si la IA termina en los tribunales?

Ante este panorama, algunos expertos como Goldstein sugieren que los agentes de IA deberían ser legalmente responsables en caso de daños o delitos, tal como sucede con las personas o empresas. Una propuesta polémica, pero que gana fuerza a medida que los sistemas inteligentes asumen más tareas críticas en la sociedad.

Mientras tanto, el sector privado también enfrenta un dilema: la desconfianza pública puede ralentizar la adopción masiva de estas tecnologías. Por eso, más que una cuestión ética, entender y controlar el comportamiento engañoso de la IA se convierte en una prioridad económica y estratégica.

La inteligencia artificial ha cruzado un umbral. Ya no se trata solo de predecir palabras o generar imágenes: los modelos actuales muestran señales de autonomía y duplicidad. El reto ahora es asegurar que, en su crecimiento, la IA no supere los límites de lo que el ser humano puede y debe controlar.

La inteligencia artificial aprende a mentir, manipular y amenazar: crece la alarma entre expertos

Alphabet gana 97.715 millones de dólares hasta septiembre, un 32,7 % más interanual

Nvidia hace historia: alcanza los 5 billones de dólares y redefine el poder tecnológico mundial

PayPal firma acuerdo con OpenAI para integrar su billetera digital en ChatGPT

La inteligencia artificial aprende a mentir, manipular y amenazar: crece la alarma entre expertos

¿Qué está ocurriendo dentro de estos modelos?

Mentiras, manipulación y estrategias

Un vacío legal en expansión

¿Y si la IA termina en los tribunales?

Related Posts

Alphabet gana 97.715 millones de dólares hasta septiembre, un 32,7 % más interanual

Nvidia hace historia: alcanza los 5 billones de dólares y redefine el poder tecnológico mundial

PayPal firma acuerdo con OpenAI para integrar su billetera digital en ChatGPT

Suscríbete para recibir actualizaciones