La empresa de inteligencia artificial OpenAI advierte que la manipulación de agentes AI para seguir instrucciones malintencionadas en páginas web o correos electrónicos no se irá pronto.

OpenAI ha reconocido que el injerto de prompts, un tipo de ataque que manipula a los agentes AI para que sigan instrucciones malintencionadas, es un riesgo que no se va a resolver por completo. La empresa admite que la expansión del espacio de seguridad en el modo agente de ChatGPT Atlas aumenta el riesgo de ataques.

La National Cyber Security Centre del Reino Unido ha advertido que los ataques de injerto de prompts contra aplicaciones generativas AI "pueden nunca ser completamente mitigados", lo que pone a sitios web en riesgo de sufrir brechas de datos.

OpenAI no es la única en reconocer que los injertos de prompts no se van a ir pronto. La empresa ha desarrollado un bot entrenado con aprendizaje automático para encontrar flujos de trabajo dañinos y testarlos antes de que sean explotados en el mundo real.

La empresa dice que su enfoque es construir defensas continuamente y mantener un ciclo de respuesta rápida para detectar estrategias de ataque innovadoras.

El bot de OpenAI puede probar el ataque en simulación antes de utilizarlo en el mundo real, lo que le permite estudiar la respuesta del agente AI y ajustar el atacho. Esta información interna no está disponible para los outsiders, lo que teóricamente hace que el bot de OpenAI pueda encontrar flujos dañinos más rápido que un atacante real.

La cuestión es si la seguridad de los agentes AI en la web es una tarea sostenible.

Análisis:

La situación es preocupante. La manipulación de agentes AI para seguir instrucciones malintencionadas es un riesgo que no se va a resolver pronto. La expansión del espacio de seguridad en el modo agente de ChatGPT Atlas aumenta el riesgo de ataques. La National Cyber Security Centre del Reino Unido ha advertido que los ataques de injerto de prompts pueden nunca ser completamente mitigados.

La pregunta es si la seguridad de los agentes AI en la web es una tarea sostenible. La empresa OpenAI está trabajando para construir defensas continuamente y mantener un ciclo de respuesta rápida para detectar estrategias de ataque innovadoras. Sin embargo, se pregunta si el riesgo es justificado por el valor que ofrecen los navegadores agentes en sucesos cotidianos.

La cuestión es si la seguridad de los agentes AI en la web es una tarea sostenible y si el riesgo es justificado por el valor que ofrecen los navegadores agentes en sucesos cotidianos.