대부분의 프로덕션 AI 실패는 모델 실패가 아니다. 권한 실패다. 에이전트는 설정된 대로 정확히 동작했다 — 그 설정이 출시 3주 후에 발생한 엣지 케이스에 맞지 않았을 뿐이다.
배포 전에 자율성 등급을 정의하는 것은 이론적인 작업이 아니다. 롤백 비용을 결정하는 의사결정이다.
네 가지 자율성 등급
모든 에이전트 배포는 다음 수준 중 하나에 위치한다:
- 읽기 전용. 에이전트는 데이터를 관찰하고 결과를 기록한다. 아무 행동도 취하지 않는다. 사람이 출력을 읽고 무엇을 할지 결정한다.
- 제안 전용. 에이전트는 권장 행동을 생성한다. 실행 전에 사람이 승인하거나 거부한다.
- 검토 포함 실행. 에이전트가 즉시 행동하지만, 모든 행동이 기록되고 정해진 시간 내 — 예를 들어 15분 — 에 사람의 검토를 위해 노출된다. 사람은 그 시간 내에 행동을 되돌릴 수 있다.
- 완전 자율. 에이전트가 행동하고 그 행동은 최종으로 간주된다. 검토 단계 없음. 되돌리기 시간 없음.
각 등급에는 적합한 사용 사례가 있다. 문제는 자율성 자체가 아니다. 잘못된 작업에 잘못된 등급을 선택하거나, 의도적인 결정 없이 더 높은 등급으로 이동하는 것이 문제다.
자율성 크리프가 발생하는 이유
팀은 거의 항상 제안 전용에서 시작한다. 그것은 올바른 직관이다. 그러나 제안 전용은 큐를 만든다. 누군가 그 큐를 처리해야 한다. 큐가 커지면 검토 단계를 제거하려는 압박도 함께 커진다.
대화는 이런 식으로 흘러간다: "에이전트가 6주 동안 94% 정확도를 보였다. 검토 단계가 우리를 느리게 할 뿐이다. 자율 모드로 전환하자."
그 논리가 틀린 것은 아니다. 불완전한 것이다. 제안 전용에서 6% 오류율은 허용 가능했다. 사람이 실행 전에 모든 오류를 잡았기 때문이다. 완전 자율에서는 동일한 6%가 검토 없이 실행된다. 하루 200개 행동 기준으로, 하루 12개의 잘못된 행동이 검토 없이 실행된다.
자율성 크리프는 신뢰도 문제로 위장한 볼륨 문제다. 에이전트가 더 신뢰할 수 있게 된 것이 아니다. 오류의 결과가 더 커진 것이다.
구체적인 예시: 리드 라우팅
B2B 영업팀이 리드 라우팅 에이전트를 배포한다. 에이전트는 인바운드 폼 제출을 읽고 지역, 딜 규모, 제품 라인을 기반으로 각 리드를 영업 담당자에게 배정한다.
제안 전용에서
에이전트가 라우팅 권장 사항을 생성한다. 영업 운영 매니저가 하루 두 번 큐를 검토하고 배정을 승인한다.
엣지 케이스: 이미 고객인 회사에서 리드가 들어온다 — 신규 고객이 아닌 잠재적 업셀이다. 에이전트가 신규 비즈니스 담당자에게 라우팅한다. 매니저가 이를 발견하고 어카운트 매니저에게 재배정한다. 피해 없음.
오류 비용: 매니저 시간 30초.
완전 자율에서
6주 후, 팀이 검토 단계를 제거한다. 볼륨은 하루 80개 리드다. 매니저가 모든 배정을 검토할 수 없다.
동일한 엣지 케이스가 발생한다. 에이전트가 기존 고객을 신규 비즈니스 담당자에게 라우팅한다. 신규 비즈니스 담당자가 2년 된 고객 담당자에게 콜드콜을 한다. 어카운트 매니저가 이를 알게 된다. 고객이 불쾌해한다. 딜이 지연된다.
오류 비용: 손상된 관계 하나, 지연된 갱신 하나, 내부 정리 2시간.
에이전트는 변하지 않았다. 등급이 바뀌었다. 엣지 케이스는 항상 존재했다.
올바른 경로
올바른 방법은 제안 전용에 영원히 머무는 것이 아니다. 먼저 검토 포함 실행으로 이동하는 것이다. 에이전트가 즉시 리드를 라우팅한다 — 큐 없음 — 하지만 모든 배정이 30분 동안 검토 피드에 표시된다. 매니저는 모든 항목이 아닌 플래그된 항목만 훑어본다. 플래그는 알려진 엣지 케이스 패턴에서 트리거된다: 기존 고객 도메인, 임계값 이상의 딜 규모, 차단된 지역의 리드.
이 설계는 완전 자율의 속도 이점 90%를 확보하면서 중요한 케이스를 위한 포착 시간을 유지한다.
배포 전에 등급을 설정하는 방법
세 가지 질문이 올바른 시작 등급을 결정한다:
- 단일 잘못된 행동의 비용은 얼마인가? 답이 "5분 이내에 되돌릴 수 있는 불편함"이라면 검토 포함 실행이 적합할 가능성이 높다. 답이 "손상된 고객 관계 또는 컴플라이언스 이벤트"라면 제안 전용에서 시작하라.
- 엣지 케이스의 예상 오류율은 얼마인가? 평균 정확도가 아닌 엣지 케이스 정확도다. 대부분의 에이전트는 일반적인 케이스에서 잘 동작하고 꼬리 케이스에서 부진하다. 꼬리 볼륨을 추정하라.
- 되돌리기 메커니즘이 있는가? 검토 포함 실행은 행동이 검토 시간 내에 실제로 되돌릴 수 있을 때만 작동한다. 리드 라우팅은 되돌릴 수 있다. 발송된 이메일은 그렇지 않다. 등급 선택은 가역성을 고려해야 한다.
첫 번째 배포 전에 답변을 문서화하라. 실제 프로덕션 데이터로 30일 후에 재검토하라. 큐 압박이 아닌 의도적인 결정으로 등급을 이동하라.
단조로움이 이긴다. 12개월 동안 올바른 자율성 등급에서 실행되는 에이전트가 완전 자율로 데모하고 4주 차에 롤백하는 에이전트를 이긴다.
에이전트 배포를 계획하고 등급 결정을 검토 중이라면, 대화 시작하기 →