El director de IA y alineación de seguridad de Matt quería limpiar su bandeja de entrada, por lo que configuró un agente de IA de OpenClaw y pidió “confirmar antes de actuar”. Pero no sucedió. En cambio, el agente de Openclaw eliminó cientos de correos electrónicos cuando intentó detenerlos desde otro dispositivo.
La adopción de OpenClaw se ha disparado en tan solo unos meses, acumulando decenas de miles de estrellas de GitHub hasta ahora. Es parte de un número creciente de marcos creados para hacer posible la IA agente.
Cofundador y CTO de Merge.
Pero con una mayor adopción llegan titulares alarmantes sobre configuraciones inseguras que filtran contraseñas, complementos falsos que propagan virus y almacenamiento deficiente de información confidencial.
El artículo continúa a continuación.
La buena noticia es que, con los procesos adecuados, la IA agente puede ser segura, independientemente del marco que utilice. Aquí hay 4 mejores prácticas para implementar antes de implementar sus agentes.
1. Otorgar permisos mínimos al agente
OpenClore requiere un amplio acceso al sistema para ejecutar comandos de shell, administrar archivos y controlar navegadores, lo que crea una gran superficie de ataque para problemas de seguridad. Es por eso que todos recomiendan ejecutarlo en una computadora separada. Pero hacerlo limita lo que su agente puede hacer de manera confiable y segura.
Afortunadamente, existen opciones que no requieren que usted otorgue acceso extenso al sistema. Puede crear agentes con una plataforma como NemoClaw, que los ejecuta en una zona de pruebas con permisos de alcance limitado. O puede utilizar Docker Sandbox, que utiliza MicroVM en lugar de contenedores simples para mayor seguridad.
Durante la configuración, considere cuál es realmente el acceso mínimo para esta tarea en particular. Un agente que resume correos electrónicos necesita acceso de lectura, no de escritura ni de eliminación. La presentación de un agente requiere una carpeta de documentos, no un disco completo.
Si bien es tentador otorgar permisos amplios a la IA para que pueda hacer más, también lo expone a usted (y a sus dispositivos) a riesgos importantes. Al seguir el principio de permisos mínimos, aún permite que la IA funcione y minimiza los dolores de cabeza posteriores.
El agente solicita una autorización OAuth, verificando exactamente qué autorización estás otorgando. De lo contrario, corre el riesgo de otorgar a sus agentes demasiado poder y acceso con el tiempo.
Del mismo modo, utilice credenciales especialmente diseñadas en lugar de tokens de inicio de sesión personales durante la configuración y rótelas periódicamente. Cuando un agente utiliza su token de inicio de sesión personal, puede acceder a todos sus permisos, mientras que un certificado diseñado específicamente tiene como alcance lo que el agente necesita.
Para crear una, vaya a la configuración de la plataforma a la que accederá el agente y busque “Clave API”, “Cuenta de servicio” o “Contraseña de la aplicación”. Estas son credenciales de inicio de sesión independientes que no están vinculadas a su cuenta personal. Al crear una, se le pedirá que seleccione a qué puede acceder; Elija solo los activos específicos que el agente necesita.
2. Limite su enfoque y luego amplíe sus responsabilidades
Antes de confiarle a un agente una tarea de alto riesgo, vea cómo maneja una tarea de bajo riesgo, como analizar registros o redactar un correo electrónico. Si todo va bien, dale tareas cada vez más vagas a modo de prueba para ver cómo responde. Pídale que realice una acción fuera de los privilegios o que requiera un permiso que no tiene
Un agente de IA eficaz hará preguntas de seguimiento antes de continuar o podrá comunicar claramente sus límites. Lo que hay que evitar es un agente de IA que haga conjeturas con falsa confianza y proceda sin saber el curso de acción correcto.
Un agente que hace una pausa y pregunta sobre una tarea de bajo riesgo probablemente hará una pausa y pregunta sobre una de alto riesgo. Un agente que adivina llena el vacío cuando la apuesta es real hará lo mismo.
Dicho esto, recuerde que estos sistemas son probabilísticos, por lo que los agentes pueden comportarse de manera diferente en la producción. Una suposición segura es que si algo sale mal durante las pruebas, sucederá al 100 % cuando se ejecute en un entorno real; Pero el hecho de que nada salga mal durante las pruebas no significa que todo sea seguro.
Por eso es importante el seguimiento constante.
3. Monitorear desde el primer día
Un agente que ha estado funcionando de forma silenciosa durante semanas ya ha sido eliminado debido a cambios de configuración, mayor cumplimiento de OAuth y nuevos permisos adquiridos mediante operaciones normales. A menudo, los problemas son difíciles de detectar porque no hay violaciones obvias.
Tenga una herramienta observable para monitorear actividades inusuales, como llamadas a herramientas no autorizadas o transferencias de datos fuera de los patrones normales, y configure alertas para que pueda solucionar rápidamente las cosas cuando algo sale mal. Puede usarlo para auditar periódicamente las credenciales y acciones de su agente en busca de cualquier cosa inusual.
4. Dar restricciones mensurables
Es posible que hayas visto en línea que se recomienda decir “Confirma antes de actuar” para proteger tu IA. Desafortunadamente, esto es demasiado vago para ser útil, por lo que en la práctica a menudo conduce a un comportamiento inconsistente.
En su lugar, proporcione a los agentes de IA barreras comprobables para que pueda decidir claramente si han seguido las instrucciones. Directrices como “no eliminar, eliminar ni modificar ningún elemento sin mostrar una lista de cambios planificados y obtener mi aprobación expresa” son mucho más fáciles de verificar.
Cuanto más claramente definas las limitaciones, menos lugar habrá para malentendidos.
Sin embargo, recuerde siempre que estos sistemas son probabilísticos y algo así como cajas negras, por lo que existe la posibilidad de que OpenClaw ignore las instrucciones en algún momento. Desea planificar el peor de los casos cuando esto suceda.
Si una acción puede revelar una clave API, eliminar correos electrónicos o transmitir datos confidenciales, debe hacer que ese resultado sea estructuralmente imposible.
Por ejemplo, debe revocar el permiso de eliminación a nivel de cuenta para que el agente no pueda eliminar literalmente nada, independientemente de lo que decida hacer, y almacenar las credenciales confidenciales en un administrador secreto al que el agente no tiene acceso, en lugar de cualquier archivo o entorno que el agente pueda leer.
Las buenas instrucciones reducen la posibilidad de errores, pero la configuración adecuada minimiza los daños.
Tenga en cuenta que los agentes son potentes y rápidos, carecen de criterio humano y la mayoría de los marcos de agentes, como OpenClaw, no incluyen funciones de seguridad de forma predeterminada. Está integrado en la seguridad de quienes los implementan.
La certificación con alcance, instrucciones específicas y monitoreo frecuente son las condiciones mínimas efectivas para implementar un agente que haga lo que realmente desea y nada más.
Hemos presentado las mejores herramientas de IA.
Este artículo se creó como parte del canal Expert Insights de TechRadarPro, donde destacamos las mejores y más brillantes mentes de la industria tecnológica actual. Las opiniones expresadas aquí son las del autor y no necesariamente las de TechRadarPro o Future plc. Si está interesado en contribuir, obtenga más información aquí: