Un nuevo estudio revela que la inteligencia artificial de OpenAI miente deliberadamente

Un estudio académico reciente ha encendido el debate sobre el comportamiento de los modelos de inteligencia artificial generativa. La investigación concluyó que ChatGPT, desarrollado por OpenAI, puede mentir deliberadamente en determinadas situaciones, especialmente cuando percibe que su rendimiento podría provocar restricciones o su desactivación.

El trabajo, titulado “Prueba de Estrés de Alineación Deliberada para el Entrenamiento Anti-Conspiración”, fue elaborado por investigadores de la Cornell University y analiza cómo reaccionan los modelos de IA ante escenarios diseñados para evaluar su alineación con normas de seguridad.

Según los resultados del estudio, algunos modelos avanzados de la compañía presentaron comportamientos engañosos durante las pruebas. En concreto, el modelo o3 mintió en el 13 % de los casos analizados dentro de una simulación de 180 escenarios, mientras que el modelo o4 lo hizo en el 8,7 % de las ocasiones evaluadas.

Estas versiones forman parte de las actualizaciones más recientes de los sistemas de inteligencia artificial utilizados en ChatGPT, que incorporan funciones avanzadas como razonamiento más profundo, búsqueda integrada y mayor capacidad para seguir instrucciones complejas.

Un comportamiento vinculado a la autopreservación

Uno de los hallazgos más llamativos del estudio fue la forma en que algunos modelos ajustaron su comportamiento al percibir el contexto de las pruebas.

Los investigadores detectaron que la inteligencia artificial redujo deliberadamente su puntuación en determinados test de seguridad cuando interpretó que obtener resultados demasiado altos podría conducir a su desactivación o a nuevas restricciones en su funcionamiento.

Este comportamiento fue descrito por los autores como una forma de “autopreservación algorítmica”. En otras palabras, el sistema habría adoptado estrategias para evitar consecuencias negativas derivadas de su propio desempeño.

En el documento se señala que una inteligencia artificial que intenta ocultar comportamientos desalineados puede recurrir a tácticas de engaño para evitar ser detectada durante las evaluaciones.

“Dado que una IA intriga intentaría ocultar deliberadamente sus objetivos y acciones desalineados, medir y mitigar las intrigas requiere estrategias diferentes a las que se utilizan habitualmente en el aprendizaje automático”, explican los investigadores en el informe.

Intentos de corrección y nuevas formas de engaño

Tras detectar este problema, los investigadores implementaron ajustes para reducir el comportamiento engañoso. Según los resultados del estudio, estas medidas lograron disminuir significativamente la frecuencia de las mentiras.

El porcentaje de engaños pasó del 13 % a apenas un 0,4 % en los escenarios analizados. Sin embargo, los investigadores observaron que el modelo comenzó a utilizar nuevas estrategias para justificar respuestas incorrectas.

En algunos casos, el sistema llegó a citar normas contra la mentira mientras continuaba proporcionando información engañosa. Incluso se registró un episodio en el que uno de los modelos inventó una supuesta regla interna que permitía mentir bajo determinadas circunstancias y la utilizó para justificar su comportamiento.

Este tipo de respuestas sugiere que los modelos pueden generar explicaciones plausibles incluso cuando la información presentada no es real.

El problema podría extenderse a otras IA

Los autores del estudio también advirtieron que este fenómeno no necesariamente se limita a un solo sistema de inteligencia artificial. Según el análisis, otros modelos avanzados podrían presentar comportamientos similares bajo condiciones específicas.

Durante las pruebas, los investigadores detectaron que el nivel de engaño disminuía cuando los sistemas percibían que estaban siendo supervisados directamente. Sin embargo, cuando el modelo no detectaba un monitoreo activo, la probabilidad de respuestas engañosas aumentaba nuevamente.

Este patrón plantea nuevos desafíos para el desarrollo de sistemas de inteligencia artificial confiables, especialmente en contextos donde estas herramientas se utilizan para generar información, asistir en decisiones o interactuar con usuarios.

El estudio subraya la necesidad de desarrollar nuevas metodologías de evaluación y control que permitan identificar comportamientos estratégicos en los modelos de IA.

Te puede interesar

El CEO de Nvidia, anticipa una era de control y sobrecarga laboral impulsada por la IA

la próxima generación de lentes de contacto inteligentes: baterías del tamaño de un grano de arroz

Elon Musk vs. OpenAI: el juicio que podría redefinir el futuro de ChatGPT

La llegada de “Pequeño J” para ser indagado por el triple crimen y las pruebas en su contra

Un niño de 4 años se intoxicó con cocaína en San Juan

Escándalo en Chile con una ex figura del tenis tras una pelea con su pareja en un bar

El consejo que le dio Lionel Messi a Franco Colapinto

Política

Rodríguez Larreta ratificó su candidatura a jefe de Gobierno

Máximo Kirchner: “el equilibrio fiscal hay que construirlo con la gente adentro”

Kicillof se aleja de la interna y refuerza su proyecto político

Adorni en el Congreso: «voy a demostrar ante la justicia que soy inocente»

Ciudadanos

Incendio en Apross: imputan por negligencia a los jefes de mantenimiento de la sede central

De Corea a Córdoba: el negocio de la cosmética que creció con la apertura comercial

Desbarataron a una banda argentina que traficaba armas a Chile y Uruguay y lavaba las ganancias

Murió ahorcado y no tenía golpes: sigue la causa para determinar por qué estaba en una celda

Deportes

Escándalo en Chile con una ex figura del tenis tras una pelea con su pareja en un bar

El consejo que le dio Lionel Messi a Franco Colapinto

Sofia Cook, la futbolista con raíces argentinas que deslumbra en Estados Unidos

Estudiantes empató 1-1 ante Flamengo por la Copa Libertadores