La mayoría de las fallas de IA en producción no son fallas del modelo. Son fallas de permisos. El agente hizo exactamente lo que fue configurado para hacer — y esa configuración era incorrecta para los casos extremos que llegaron tres semanas después del lanzamiento.
Definir los niveles de autonomía antes del despliegue no es un ejercicio teórico. Es la decisión que determina el costo de tu rollback.
Los Cuatro Niveles de Autonomía
Cada despliegue de agente se ubica en uno de estos niveles:
- Solo lectura. El agente observa datos y registra hallazgos. No toma ninguna acción. Un humano lee el resultado y decide qué hacer.
- Solo sugerencias. El agente produce una acción recomendada. Un humano la aprueba o rechaza antes de que se ejecute cualquier cosa.
- Ejecutar con revisión. El agente actúa de inmediato, pero cada acción queda registrada y disponible para revisión humana dentro de una ventana definida — por ejemplo, 15 minutos. Un humano puede revertir la acción dentro de esa ventana.
- Totalmente autónomo. El agente actúa y la acción se considera definitiva. Sin paso de revisión. Sin ventana de reversión.
Cada nivel tiene un caso de uso legítimo. El problema no es la autonomía en sí. El problema es elegir el nivel incorrecto para la tarea incorrecta, o derivar hacia un nivel más alto sin una decisión deliberada.
Por Qué Ocurre la Expansión de Autonomía
Los equipos casi siempre comienzan en solo sugerencias. Ese es el instinto correcto. Pero solo sugerencias crea una cola. Alguien tiene que procesar esa cola. Cuando la cola crece, la presión para eliminar el paso de revisión crece con ella.
La conversación suena así: "El agente ha tenido razón el 94% del tiempo durante seis semanas. El paso de revisión solo nos está frenando. Pasémoslo a autónomo."
Esa lógica no está equivocada. Está incompleta. La tasa de error del 6% era tolerable en solo sugerencias porque un humano detectaba cada error antes de que se ejecutara. En totalmente autónomo, ese mismo 6% se ejecuta sin revisión. Con 200 acciones por día, eso son 12 acciones incorrectas por día sin control.
La expansión de autonomía es un problema de volumen disfrazado de problema de confianza. El agente no se volvió más confiable. Las consecuencias de sus errores simplemente se hicieron más grandes.
Un Ejemplo Concreto: Enrutamiento de Leads
Un equipo de ventas B2B despliega un agente de enrutamiento de leads. El agente lee los formularios de entrada y asigna cada lead a un representante de ventas según territorio, tamaño del negocio y línea de producto.
En Solo Sugerencias
El agente produce una recomendación de enrutamiento. Un gerente de operaciones de ventas revisa la cola dos veces al día y aprueba las asignaciones.
Caso extremo: llega un lead de una empresa que ya es cliente — un posible upsell, no un nuevo cliente. El agente lo enruta al representante de nuevos negocios. El gerente lo detecta y lo reasigna al account manager. Sin daño.
Costo del error: 30 segundos del tiempo del gerente.
En Totalmente Autónomo
Seis semanas después, el equipo elimina el paso de revisión. El volumen es de 80 leads por día. El gerente no puede revisar cada asignación de todas formas.
El mismo caso extremo llega. El agente enruta al cliente existente al representante de nuevos negocios. El representante de nuevos negocios llama en frío a un contacto que ha sido cliente durante dos años. El account manager se entera. El cliente está molesto. El negocio se estanca.
Costo del error: una relación dañada, una renovación estancada, dos horas de limpieza interna.
El agente no cambió. El nivel cambió. El caso extremo siempre estuvo ahí.
El Camino Correcto
La decisión correcta no es quedarse en solo sugerencias para siempre. Es moverse primero a ejecutar con revisión. El agente enruta el lead de inmediato — sin cola — pero cada asignación es visible en un feed de revisión durante 30 minutos. El gerente revisa el feed superficialmente, no cada elemento, solo los marcados. Las marcas se activan con patrones de casos extremos conocidos: dominios de clientes existentes, tamaños de negocio por encima de un umbral, leads de territorios bloqueados.
Ese diseño captura el 90% del beneficio de velocidad de la autonomía total mientras preserva una ventana de detección para los casos que importan.
Cómo Definir el Nivel Antes del Despliegue
Tres preguntas determinan el nivel de inicio correcto:
- ¿Cuál es el costo de una sola acción incorrecta? Si la respuesta es "molesto pero reversible en menos de cinco minutos", ejecutar con revisión probablemente está bien. Si la respuesta es "una relación con el cliente dañada o un evento de cumplimiento", comienza en solo sugerencias.
- ¿Cuál es la tasa de error esperada en casos extremos? No la precisión promedio — la precisión en casos extremos. La mayoría de los agentes funcionan bien en el caso común y mal en la cola. Estima el volumen de la cola.
- ¿Existe un mecanismo de reversión? Ejecutar con revisión solo funciona si la acción es realmente reversible dentro de la ventana de revisión. El enrutamiento de leads es reversible. Los correos enviados no lo son. La selección del nivel debe tener en cuenta la reversibilidad.
Documenta las respuestas antes del primer despliegue. Revísalas a los 30 días con datos reales de producción. Cambia de nivel de forma deliberada, no bajo la presión de la cola.
Lo aburrido gana. Un agente que opera en el nivel de autonomía correcto durante 12 meses supera a un agente que hace una demo en autonomía total y hace rollback en la semana cuatro.
Si estás definiendo el alcance de un despliegue de agente y trabajando en la decisión del nivel, Inicia una conversación →