AI 에이전트 협업 자가 발전 시스템 설계
개요
AI 코딩 에이전트와의 협업에서 점점 더 크고 깊은 임팩트를 달성하기 위한 자가 발전 시스템을 설계한다. 조직 신뢰 이론과 자동화 신뢰 연구를 기반으로 목적 함수, 가치 함수, 비용 함수를 정의하고, 이터레이션과 이밸류에이션 메커니즘을 구축한다.
이 시스템의 핵심 전제는 두 가지다:
| 전제 | 근거 | 의미 |
|---|---|---|
| "보정된 신뢰"가 목표 | Lee & See (2004) | 신뢰 최대화가 아니라, 에이전트의 실제 능력에 부합하는 적정 위임과 개입 |
| "복합 시스템"의 최적화 | Hollnagel & Woods (2005) | 에이전트 성능만이 아니라 컨텍스트, 프로세스, 인간 숙련도를 포함하는 전체 시스템 |
1. 함수 정의
1a. 목적 함수 (Objective Function) — 무엇을 최적화하는가
Maximize: O(t) = I(t) / H(t)
subject to:
(1) |Trust(t) - Capability(t)| ≤ ε — 신뢰 보정 제약
(2) SA(t) ≥ SA_min — 상황 인식 하한
| 기호 | 정의 | 설명 |
|---|---|---|
| I(t) | Impact | 시점 t에서 달성한 결과의 임팩트 총량 |
| H(t) | Human Effort | 투입한 인간의 시간과 인지 부하 총량 |
| ε | Calibration Tolerance | 허용 가능한 신뢰-능력 보정 오차 범위 |
| SA_min | SA 하한 | 효과적 감독을 위한 최소 상황 인식 수준 |
왜 I/H 비율인가:
| I만 최대화 | H만 최소화 | I/H 비율 최대화 |
|---|---|---|
| 인간이 24시간 감시해도 "최적" | 아무것도 안 시키는 것이 "최적" | "적은 개입으로 큰 임팩트" 포착 |
제약 조건의 근거:
| 제약 | 근거 이론 | 위반 시 결과 |
|---|---|---|
| (1) 신뢰 보정 | Lee & See — Appropriate Reliance | Trust > Capability → Misuse (품질 사고) / Trust < Capability → Disuse (기회 손실) |
| (2) SA 하한 | Endsley — Situation Awareness | SA < SA_min → 효과적 감독·의사결정 불가능 → 위임의 역설 발생 |
1b. 가치 함수 (Value Function) — 현재 상태의 장기적 가치
V(S) = Σ γ^k · E[O(t+k) | S(t) = S] (k = 0, 1, 2, ...)
γ = 할인율 (0 < γ < 1), 가까운 미래의 임팩트가 더 가치 있음
시스템 상태 S(t)의 구성 요소:
| 요소 | 정의 | 포함 내용 | 가치 기여 방식 | 특성 |
|---|---|---|---|---|
| A(t) Agent | 에이전트의 현재 능력 | 모델 기본 능력, OPD 속성 (Klein) | 위임 가능한 태스크의 상한 결정 | 외생적, 점프형 (모델 업데이트) |
| C(t) Context | 공유 인지 공간의 성숙도 (Hollnagel) | AGENTS.md 규칙, 메모리 축적, 도메인 문서화 | 같은 A에서도 실제 성공률 향상 | 내생적, 누적형 |
| P(t) Process | 시스템적 안전장치의 성숙도 | 가드레일/훅, 체크포인트, 자동 검증 | Integrity 위반 확률 감소, 심리적 안전감 (Edmondson) 증대 | 내생적, 투자 필요 |
| K(t) Human | 인간의 숙련도 | Calibration 정확도, 엔지니어링 숙련도, 도메인 전문성 | Misuse/Disuse 감소, 적정 위임 판단 정교화 | 내생적, 경험 의존 |
곱셈적 상호작용 — "병목 우선 투자" 원칙의 이론적 근거:
V ≈ f(A × C × P × K)
→ 어느 하나가 0에 가까우면 전체 가치가 무너짐
→ min(A, C, P, K)를 올리는 것이 ROI가 가장 높음
→ 이미 높은 요소를 더 올리는 것은 한계 효용이 낮음
1c. 비용 함수 (Cost Function) — 무엇을 지불하는가
Cost(t) = C_context + C_process + C_sa + C_repair + C_opportunity
| 비용 항목 | 설명 | 예시 | 특성 |
|---|---|---|---|
| C_context | 컨텍스트 구축/유지 | AGENTS.md 작성, 메모리 정리, 문서화 | 초기 투자 크지만 체감 비용 감소 |
| C_process | 프로세스 구축/유지 | 훅 개발, 가드레일, CI/CD 설정 | 일회성 투자, C_repair과 C_sa를 크게 줄임 |
| C_sa | 상황 인식 유지 | 코드 리뷰, PR 검토, 아키텍처 이해 유지 | 위임↑ → 개별 검토↓, 대규모 이해 비용↑ |
| C_repair | 신뢰 회복 | 디버깅, 롤백, 규칙 보강 | 위임↑ → 실패 파급 범위↑ → C_repair↑ |
| C_opportunity | 기회 비용 | 시스템 개선에 쓴 시간 = 제품 개발 못한 시간 | 단기 비용이지만 장기 O(t) 향상 투자 |
위임 수준에 따른 비용 역학:
| 위임 수준 | C_context | C_process | C_sa | C_repair | C_opportunity |
|---|---|---|---|---|---|
| 낮은 위임 (L1-L3) | 낮음 | 낮음 | 높음 (매번 상세 검토) | 낮음 (파급 범위 작음) | 높음 (직접 해야 함) |
| 중간 위임 (L4-L6) | 중간 | 중간 | 중간 | 중간 | 중간 |
| 높은 위임 (L7-L8) | 높음 (정교한 규칙 필요) | 높음 (안전장치 필수) | 낮음 | 높음 (실패 시 대형) | 낮음 |
최적점은 총 비용 최소가 아니라, 순 가치 (V - Cost)의 기울기가 최대인 지점이다.
2. 이터레이션과 이밸류에이션
사이클 개요
┌──────────────────────────────────────────────────────┐
│ │
▼ │
┌──────────┐ ┌──────────┐ ┌──────────┐ ┌───────┴──┐
│ OBSERVE │───▶│ EVALUATE │───▶│ INTERVENE│───▶│ MEASURE │
│ │ │ │ │ │ │ │
│ 세션에서 │ │ 병목 진단 │ │ 가장 낮은 │ │ 다음 세션 │
│ 데이터 수집│ │ 어디에 │ │ 요소에 │ │ 에서 변화 │
│ │ │ 투자할까? │ │ 집중 투자 │ │ 추적 │
└──────────┘ └──────────┘ └──────────┘ └──────────┘
각 사이클은 개인 기준 1-2주, 팀 기준 스프린트 단위가 적절하다.
Phase 1: OBSERVE — 세션별 데이터 수집
매 작업 세션에서 수집할 데이터:
태스크 레코드:
| 필드 | 설명 | 값 예시 |
|---|---|---|
| description | 태스크 설명 | "FastingWorks 단식 타이머 리팩토링" |
| delegation_level | 위임 수준 (Sheridan L1-L10) | L5 |
| outcome | 결과 | success / partial / failure |
| interventions | 중간 개입 횟수와 유형 | 2회 (방향 수정 1, 오류 수정 1) |
| rework | 재작업 필요 여부와 규모 | 없음 / 소규모 / 대규모 |
| impact_size | 임팩트 크기 | S / M / L / XL |
신뢰 이벤트:
| 유형 | 설명 | 예시 |
|---|---|---|
| breach | 기대 위반 | 에이전트가 main에 직접 커밋 시도 |
| confirmation | 기대 충족 확인 | 복잡한 리팩토링을 정확히 완수 |
| surprise_success | 예상 밖 성공 | 기대하지 않은 엣지 케이스까지 처리 |
각 이벤트에 영향받은 요인(ability / predictability / directability)을 태깅한다.
SA 자가 점검 (세션 종료 시):
| 질문 | 척도 |
|---|---|
| 코드베이스 변경사항을 이해하고 있는가? | 1-5 |
| 다음 우선순위를 판단할 수 있는가? | 1-5 |
SA 점수가 지속적으로 낮으면 → 위임 수준이 SA 용량을 초과하고 있다는 신호.
Phase 2: EVALUATE — 핵심 메트릭 산출과 병목 진단
3가지 핵심 메트릭:
| 메트릭 | 산출 방법 | 추적 목표 | 대응 함수 |
|---|---|---|---|
| Impact Yield | Σ(impact_size × outcome_quality) / Σ(human_time) | 세션마다 상승 | 목적 함수 O(t) |
| Calibration Error | mean(|delegation_level - appropriate_level|) | 0에 수렴 | 보정 제약 (1) |
| SA Score | 세션별 SA 자가 점검 평균 | SA_min(3.0/5.0) 이상 유지 | SA 하한 제약 (2) |
impact_size 환산: S=1, M=2, L=4, XL=8. outcome_quality: 1.0=완벽, 0.7=수정 필요, 0.3=재작업, 0=실패.
병목 진단 매트릭스:
| 증상 | 병목 요소 | Lee & See 분류 | 우선 개입 |
|---|---|---|---|
| 에이전트가 자주 틀림 | A (Agent) | — | 프롬프트 분해, 컨텍스트 보강 |
| 같은 실수를 반복함 | C (Context) | — | 메모리/피드백 축적, AGENTS.md 보강 |
| 규칙을 어기는 결과물 | P (Process) | — | 훅/가드레일 추가 |
| 맡기면 되는 걸 직접 함 | K (Human) | Disuse | 위임 실험, 경계 탐색 |
| 맡겼다가 대형 사고 | K (Human) | Misuse | Calibration 재조정, 위임 수준 하향 |
| 검토에 너무 오래 걸림 | C+P 복합 | — | Observable 개선, 자동 검증 확대 |
Phase 3: INTERVENE — 병목 요소에 집중 투자
원칙: 한 사이클에 한 요소만 개선한다. 여러 요소를 동시에 바꾸면 무엇이 효과있었는지 판단할 수 없다.
| 병목 | 개입 예시 | 비용 유형 | 기대 효과 |
|---|---|---|---|
| A 부족 | 태스크를 더 작게 분해하는 프롬프트 템플릿 | C_context | 성공률 ↑ |
| C 부족 | 실패 사례 기반 AGENTS.md 규칙 추가 | C_context | 반복 실수 ↓, Predictability ↑ |
| P 부족 | pre-commit 훅으로 규칙 위반 시스템 차단 | C_process | Integrity 위반 → 0 |
| K — Disuse | 의도적으로 한 단계 높은 위임 시도 | C_sa | Calibration 정교화, 능력 경계 탐색 |
| K — Misuse | 위임 수준 하향 + 검토 빈도 증가 | C_sa | 품질 사고 방지, 보정 재조정 |
Phase 4: MEASURE — 변화 추적과 피드백
다음 1-2 세션에서 동일 메트릭을 재측정한다.
| ΔV 결과 | 해석 | 대응 |
|---|---|---|
| ΔV > 0 | 개입 효과적 | 성과 기록, 다음 병목으로 이동 |
| ΔV ≈ 0 | 개입 불충분 또는 잘못된 진단 | 같은 병목에 다른 개입 시도 또는 재진단 |
| ΔV < 0 | 과잉 엔지니어링 또는 부작용 | 개입 롤백, 원인 분석 |
이 측정 결과 자체가 다음 사이클의 OBSERVE 데이터가 되어 순환이 계속된다.
3. 장기 성장 궤적
단계별 전환 모델
자가 발전은 선형적이 아니라 계단형이다. Lewicki & Bunker의 신뢰 발달 단계와 동일한 패턴으로, 특정 요소가 임계점을 넘어야 질적 전환이 일어난다.
| 전환 | 위임 범위 | 촉발 요인 | Lewicki 대응 |
|---|---|---|---|
| Phase 1 → 2 | 함수 단위 → 파일 단위 | Context 축적 — AGENTS.md 핵심 규칙, 메모리 피드백이 Predictability 임계점 돌파 | Calculus → Knowledge |
| Phase 2 → 3 | 파일 단위 → 기능 단위 | Process 성숙 — 가드레일·자동 검증이 심리적 안전감 임계점 돌파 | Knowledge 심화 |
| Phase 3 → 4 | 기능 단위 → 자율 운영 | Human Calibration — 태스크별 적정 위임 판단 숙련도 임계점 돌파 | Knowledge → Identification |
신뢰의 3요인 × 3가지 엔지니어링 영역
| Ability (능력) | Predictability (예측 가능성) | Integrity (원칙 준수) | |
|---|---|---|---|
| Prompt Engineering | 태스크를 능력 범위에 맞게 분해 | 출력 형식과 기대치 명시 → 분산 감소 | 금지 사항, 제약 조건 명시 |
| Context Engineering | 관련 코드/문서 제공 → 능력 발휘 조건 | AGENTS.md, 메모리로 동일 행동 기준 제공 | 컨벤션, 규칙, 피드백 구조화 |
| Process Engineering | 단계별 분할 → 각 단계 성공률 향상 | 체크포인트/리뷰 루프 → 이탈 조기 감지 | 훅, 가드레일 → 위반 시스템 차단 |
선순환과 역순환
선순환 (Virtuous Cycle):
위임 범위 확대
→ 에이전트가 더 다양한 태스크 수행
→ 더 많은 피드백 데이터 생성
→ Context/Process 개선 재료 증가
→ 시스템 품질 향상
→ 신뢰 보정이 더 정확해짐
→ 위임 범위 추가 확대
역순환 (Vicious Cycle):
대형 실패 발생
→ 신뢰 급락 (높은 단계일수록 회복 비용 ↑↑ — Lewicki)
→ 위임 범위 축소
→ 피드백 데이터 감소
→ 시스템 정체
Process 가드레일(P)은 이 역순환의 발생 확률을 낮추는 보험 역할을 한다.
4. 기존 평가 방식과의 차이
| 관점 | 기존 벤치마크 (SWE-bench 등) | 신뢰 기반 프레임워크 |
|---|---|---|
| 측정 대상 | 에이전트의 절대적 능력 | A × C × P × K 복합 시스템 |
| 지표 | 코드 정확도, 태스크 완료율 | Impact Yield, Calibration Error, SA Score |
| 개선 레버 | 모델 업데이트 (외생적) | C, P, K 3가지 내생적 레버 + A |
| 핵심 질문 | "에이전트가 얼마나 똑똑한가?" | "이 규모의 일을 맡겼을 때, 내가 개입하지 않아도 되는 비율은?" |
이 접근은 "AI가 더 똑똑해지기를 기다리는 것"(A의 외생적 향상)에만 의존하지 않는다. C, P, K라는 세 가지 내생적 레버를 통해 같은 모델 능력에서도 달성 가능한 임팩트를 체계적으로 높일 수 있다. 이것이 프롬프트/컨텍스트/프로세스 엔지니어링이 단순한 팁이 아니라 투자 가능한 자산인 이유다.
참고 논문
- Lee, J.D., & See, K.A. (2004). Trust in Automation: Designing for Appropriate Reliance. Human Factors, 46(1), 50-80.
- Parasuraman, R., Sheridan, T.B., & Wickens, C.D. (2000). A Model for Types and Levels of Human Interaction with Automation. IEEE Transactions on SMC, 30(3), 286-297.
- Klein, G., et al. (2004). Ten Challenges for Making Automation a Team Player. IEEE Intelligent Systems, 19(6), 91-95.
- Endsley, M.R. (1995). Toward a Theory of Situation Awareness in Dynamic Systems. Human Factors, 37(1), 32-64.
- Hollnagel, E., & Woods, D.D. (2005). Joint Cognitive Systems. CRC Press.
- Lewicki, R.J., & Bunker, B.B. (1996). Developing and Maintaining Trust in Work Relationships. In Trust in Organizations. Sage.
- Edmondson, A. (1999). Psychological Safety and Learning Behavior in Work Teams. ASQ, 44(2), 350-383.
- Jacovi, A., et al. (2021). Formalizing Trust in Artificial Intelligence. FAccT '21.
- Mayer, R.C., Davis, J.H., & Schoorman, F.D. (1995). An Integrative Model of Organizational Trust. AMR, 20(3), 709-734.
업데이트 이력
- 2026-04-04: 초안 작성 — 함수 정의(목적/가치/비용), 이터레이션 4단계 설계, 장기 성장 궤적