El 23 de febrero, Summer Yu, directora de alineación de IA en Meta, compartió un hilo sobre X que rápidamente se volvió viral y acumuló casi 10 millones de visitas. Había estado probando un agente de inteligencia artificial llamado OpenClaw en una bandeja de entrada de juguetes separada durante semanas y manejó cada situación como se esperaba.
Confiado en su eficacia, lo vinculó a su bandeja de entrada principal con unas instrucciones sencillas: revisar la bandeja de entrada, sugerir qué archivar o eliminar y no hacer nada hasta que él lo apruebe. En cambio, el agente se enfureció, borrando y archivando más de 200 correos electrónicos mientras tecleaba desesperadamente comandos de parada desde su teléfono.
El artículo continúa a continuación.
Promotor jefe de Kore.ai
La suposición natural es que el agente se ha vuelto rebelde. No lo fue. Simplemente olvidó las instrucciones. Su bandeja de entrada original era significativamente más grande que la cuenta del juguete, y esto provocó la compactación de la ventana de contexto, donde los contextos antiguos se comprimen para dejar espacio a la nueva información. Sus instrucciones de seguridad estaban en ese antiguo contexto.
Una vez que desapareció, el agente hizo exactamente lo que se suponía que debía hacer: limpiar la bandeja de entrada. Y esa es la verdad incómoda para todas las empresas que implementan agentes de IA en la actualidad. Escribimos un mensaje y asumimos. Pero no una regla rápida. No lo fue.
Un aviso no es una regla en una ventana de chat
Lo que Yue leyó no fue un caso extremo aislado. Ésta es la consecuencia natural de utilizar una herramienta que nunca fue diseñada para soportar el peso de la gobernanza.
Las herramientas de consumo y de código abierto están diseñadas para usuarios individuales. El control recae enteramente en la persona que los implementa. Las plataformas de nivel empresarial son una clase diferente, diseñadas para agentes que trabajan con miles de empleados, tocan datos confidenciales y toman medidas como resultado.
A esa escala, la gobernanza no puede depender de lo que alguien recuerde escribir.
Los agentes también optimizan hacia objetivos, no hacia el juicio humano. Sugerir qué eliminar y eliminarlo realmente parece exactamente lo mismo para un agente que intenta completar una tarea. A menos que haya algo en la arquitectura que fuerce una ruptura antes de realizar una acción irreversible, simplemente no se romperá. Instrucciones rápidas. No son infraestructura.
Lo que realmente hacen los agentes no controlados
La situación de Yue estaba relativamente controlada. Una persona, una bandeja de entrada, parcialmente recuperable. Pero no había ninguna pista de auditoría y solo se trataba de un agente en una tarde tranquila. Consideremos ahora la misma ausencia de gobernanza en toda una empresa, que afecta a los datos de los clientes, los registros financieros y las comunicaciones internas a escala.
El investigador de IA Simon Willison acuñó el término trifecta letal para describir lo que lo hace peligroso. Cuando un agente tiene acceso a datos personales, procesa contenido de fuentes no confiables y puede comunicarse externamente, una instrucción maliciosa oculta dentro de un documento puede redirigir todo lo que sigue.
Los agentes no pueden notar la diferencia. Sigue a ambos. Y con agentes corriendo constantemente, el daño no tiene por qué ocurrir de inmediato.
Este no es un riesgo teórico remoto. Esto sucede cuando le otorga a un agente acceso amplio y asume que el mensaje lo mantendrá honesto. El agente es tan seguro como la plataforma.
Cada organización tiene reglas sobre quién puede ver qué. Estas reglas no dejan de ser relevantes porque el trabajo ahora lo realiza un agente. Si la plataforma no las implementa, el agente actuará como si no existieran.
Lo mismo se aplica al trabajo. Cada vez que un agente actualiza un registro, envía una comunicación o cambia datos, alguien tiene que aprobarlo y un mensaje no puede hacerlo.
La gobernanza por diseño significa restricciones estrictas a nivel del sistema, acceso a lo que cada individuo necesita, certeza ante lo inmutable y capacidad de recuperación incorporada cuando las cosas van mal. Esta es una decisión de la plataforma, que se toma antes de que el agente actúe, no un mensaje escrito con esperanza.
Cómo se ve en la práctica la gobernanza por diseño
Cuando diseñamos nuestra plataforma, tal evento no era hipotético. Eran requisitos de diseño. Cada modo de falla, cada violación de límites, cada paso dado sin un ser humano en el circuito, se convirtió en una pregunta que debía responderse en nuestra arquitectura antes de escribir una línea de código de producto.
Así es como se ve esa práctica.
Gestión de usuarios: No todos los miembros de una organización deberían tener acceso a todo, ni tampoco sus agentes. Los controles basados en roles garantizan que los límites de acceso se mantengan a medida que los equipos y las implementaciones escalan.
Seguridad y cumplimiento: Los datos confidenciales deben protegerse antes de que un agente los toque, no después. El enmascaramiento de PII, el SSO, las restricciones de IP y los filtros de contenido implementados a nivel de plataforma diferencian entre acceso controlado y exposición.
Retención de datos: Las organizaciones deben decidir qué almacenar, durante cuánto tiempo y con qué nivel de detalle. Esa decisión nunca debe dejarse por defecto.
Orquestación: Un agente debe seguir lo que la organización ha decidido, no lo que ésta adivina en ese momento. Un administrador configura las barreras de seguridad, la lógica de enrutamiento y el comportamiento de respaldo, no los escribe en la ventana de chat.
Gobernanza, seguimiento y auditoría: El consentimiento que se revisa sólo después de un incidente no es consentimiento. Cada acción, cada agente, es rastreado continuamente, con un rastro que ya existe cuando algo sale mal.
Control del lugar de trabajo: El acceso nunca se da por sentado. Los permisos, las reglas de publicación y los tipos de agentes están controlados por el administrador desde el principio.
Creando una IA responsable
La IA responsable no surge por casualidad. Esto se construye a propósito, y cada decisión se toma antes de que un agente toque los datos en vivo. En un contexto empresarial, los puntos en los que puede salir mal no son sólo técnicos. Son ambiciosos, controladores y profundamente humanos.
Después de trabajar con empresas de industrias reguladas, descubrimos que la parte más difícil nunca es la tecnología. Es una promesa de hacer preguntas incómodas desde el principio: a qué puede acceder este agente, qué puede hacer sin supervisión y quién puede ser considerado responsable si algo sale mal.
Las empresas que hacen estas preguntas primero son las que implementan herramientas de inteligencia artificial con confianza. Y ese es el estándar que la industria necesita para avanzar.
Hemos presentado los mejores chatbots de IA para empresas.
Este artículo se creó como parte del canal Expert Insights de TechRadarPro, donde destacamos las mejores y más brillantes mentes de la industria tecnológica actual. Las opiniones expresadas aquí son las del autor y no necesariamente las de TechRadarPro o Future plc. Si está interesado en contribuir, obtenga más información aquí: