파일 목록으로

AI 에이전트 협업 자가 발전 시스템 설계

개요

AI 코딩 에이전트와의 협업에서 점점 더 크고 깊은 임팩트를 달성하기 위한 자가 발전 시스템을 설계한다. 조직 신뢰 이론과 자동화 신뢰 연구를 기반으로 목적 함수, 가치 함수, 비용 함수를 정의하고, 이터레이션과 이밸류에이션 메커니즘을 구축한다.

이 시스템의 핵심 전제는 두 가지다:

전제근거의미
"보정된 신뢰"가 목표Lee & See (2004)신뢰 최대화가 아니라, 에이전트의 실제 능력에 부합하는 적정 위임과 개입
"복합 시스템"의 최적화Hollnagel & Woods (2005)에이전트 성능만이 아니라 컨텍스트, 프로세스, 인간 숙련도를 포함하는 전체 시스템

1. 함수 정의

1a. 목적 함수 (Objective Function) — 무엇을 최적화하는가

Maximize:  O(t) = I(t) / H(t)

subject to:
  (1) |Trust(t) - Capability(t)| ≤ ε    — 신뢰 보정 제약
  (2) SA(t) ≥ SA_min                    — 상황 인식 하한
기호정의설명
I(t)Impact시점 t에서 달성한 결과의 임팩트 총량
H(t)Human Effort투입한 인간의 시간과 인지 부하 총량
εCalibration Tolerance허용 가능한 신뢰-능력 보정 오차 범위
SA_minSA 하한효과적 감독을 위한 최소 상황 인식 수준

왜 I/H 비율인가:

I만 최대화H만 최소화I/H 비율 최대화
인간이 24시간 감시해도 "최적"아무것도 안 시키는 것이 "최적""적은 개입으로 큰 임팩트" 포착

제약 조건의 근거:

제약근거 이론위반 시 결과
(1) 신뢰 보정Lee & See — Appropriate RelianceTrust > Capability → Misuse (품질 사고) / Trust < Capability → Disuse (기회 손실)
(2) SA 하한Endsley — Situation AwarenessSA < SA_min → 효과적 감독·의사결정 불가능 → 위임의 역설 발생

1b. 가치 함수 (Value Function) — 현재 상태의 장기적 가치

V(S) = Σ γ^k · E[O(t+k) | S(t) = S]     (k = 0, 1, 2, ...)

γ = 할인율 (0 < γ < 1), 가까운 미래의 임팩트가 더 가치 있음

시스템 상태 S(t)의 구성 요소:

요소정의포함 내용가치 기여 방식특성
A(t) Agent에이전트의 현재 능력모델 기본 능력, OPD 속성 (Klein)위임 가능한 태스크의 상한 결정외생적, 점프형 (모델 업데이트)
C(t) Context공유 인지 공간의 성숙도 (Hollnagel)AGENTS.md 규칙, 메모리 축적, 도메인 문서화같은 A에서도 실제 성공률 향상내생적, 누적형
P(t) Process시스템적 안전장치의 성숙도가드레일/훅, 체크포인트, 자동 검증Integrity 위반 확률 감소, 심리적 안전감 (Edmondson) 증대내생적, 투자 필요
K(t) Human인간의 숙련도Calibration 정확도, 엔지니어링 숙련도, 도메인 전문성Misuse/Disuse 감소, 적정 위임 판단 정교화내생적, 경험 의존

곱셈적 상호작용 — "병목 우선 투자" 원칙의 이론적 근거:

V ≈ f(A × C × P × K)

→ 어느 하나가 0에 가까우면 전체 가치가 무너짐
→ min(A, C, P, K)를 올리는 것이 ROI가 가장 높음
→ 이미 높은 요소를 더 올리는 것은 한계 효용이 낮음

1c. 비용 함수 (Cost Function) — 무엇을 지불하는가

Cost(t) = C_context + C_process + C_sa + C_repair + C_opportunity
비용 항목설명예시특성
C_context컨텍스트 구축/유지AGENTS.md 작성, 메모리 정리, 문서화초기 투자 크지만 체감 비용 감소
C_process프로세스 구축/유지훅 개발, 가드레일, CI/CD 설정일회성 투자, C_repair과 C_sa를 크게 줄임
C_sa상황 인식 유지코드 리뷰, PR 검토, 아키텍처 이해 유지위임↑ → 개별 검토↓, 대규모 이해 비용↑
C_repair신뢰 회복디버깅, 롤백, 규칙 보강위임↑ → 실패 파급 범위↑ → C_repair↑
C_opportunity기회 비용시스템 개선에 쓴 시간 = 제품 개발 못한 시간단기 비용이지만 장기 O(t) 향상 투자

위임 수준에 따른 비용 역학:

위임 수준C_contextC_processC_saC_repairC_opportunity
낮은 위임 (L1-L3)낮음낮음높음 (매번 상세 검토)낮음 (파급 범위 작음)높음 (직접 해야 함)
중간 위임 (L4-L6)중간중간중간중간중간
높은 위임 (L7-L8)높음 (정교한 규칙 필요)높음 (안전장치 필수)낮음높음 (실패 시 대형)낮음

최적점은 총 비용 최소가 아니라, 순 가치 (V - Cost)의 기울기가 최대인 지점이다.


2. 이터레이션과 이밸류에이션

사이클 개요

  ┌──────────────────────────────────────────────────────┐
  │                                                      │
  ▼                                                      │
┌──────────┐    ┌──────────┐    ┌──────────┐    ┌───────┴──┐
│ OBSERVE  │───▶│ EVALUATE │───▶│ INTERVENE│───▶│ MEASURE  │
│          │    │          │    │          │    │          │
│ 세션에서  │    │ 병목 진단 │    │ 가장 낮은 │    │ 다음 세션 │
│ 데이터 수집│    │ 어디에   │    │ 요소에   │    │ 에서 변화 │
│          │    │ 투자할까? │    │ 집중 투자 │    │ 추적     │
└──────────┘    └──────────┘    └──────────┘    └──────────┘

각 사이클은 개인 기준 1-2주, 팀 기준 스프린트 단위가 적절하다.

Phase 1: OBSERVE — 세션별 데이터 수집

매 작업 세션에서 수집할 데이터:

태스크 레코드:

필드설명값 예시
description태스크 설명"FastingWorks 단식 타이머 리팩토링"
delegation_level위임 수준 (Sheridan L1-L10)L5
outcome결과success / partial / failure
interventions중간 개입 횟수와 유형2회 (방향 수정 1, 오류 수정 1)
rework재작업 필요 여부와 규모없음 / 소규모 / 대규모
impact_size임팩트 크기S / M / L / XL

신뢰 이벤트:

유형설명예시
breach기대 위반에이전트가 main에 직접 커밋 시도
confirmation기대 충족 확인복잡한 리팩토링을 정확히 완수
surprise_success예상 밖 성공기대하지 않은 엣지 케이스까지 처리

각 이벤트에 영향받은 요인(ability / predictability / directability)을 태깅한다.

SA 자가 점검 (세션 종료 시):

질문척도
코드베이스 변경사항을 이해하고 있는가?1-5
다음 우선순위를 판단할 수 있는가?1-5

SA 점수가 지속적으로 낮으면 → 위임 수준이 SA 용량을 초과하고 있다는 신호.

Phase 2: EVALUATE — 핵심 메트릭 산출과 병목 진단

3가지 핵심 메트릭:

메트릭산출 방법추적 목표대응 함수
Impact YieldΣ(impact_size × outcome_quality) / Σ(human_time)세션마다 상승목적 함수 O(t)
Calibration Errormean(|delegation_level - appropriate_level|)0에 수렴보정 제약 (1)
SA Score세션별 SA 자가 점검 평균SA_min(3.0/5.0) 이상 유지SA 하한 제약 (2)

impact_size 환산: S=1, M=2, L=4, XL=8. outcome_quality: 1.0=완벽, 0.7=수정 필요, 0.3=재작업, 0=실패.

병목 진단 매트릭스:

증상병목 요소Lee & See 분류우선 개입
에이전트가 자주 틀림A (Agent)프롬프트 분해, 컨텍스트 보강
같은 실수를 반복함C (Context)메모리/피드백 축적, AGENTS.md 보강
규칙을 어기는 결과물P (Process)훅/가드레일 추가
맡기면 되는 걸 직접 함K (Human)Disuse위임 실험, 경계 탐색
맡겼다가 대형 사고K (Human)MisuseCalibration 재조정, 위임 수준 하향
검토에 너무 오래 걸림C+P 복합Observable 개선, 자동 검증 확대

Phase 3: INTERVENE — 병목 요소에 집중 투자

원칙: 한 사이클에 한 요소만 개선한다. 여러 요소를 동시에 바꾸면 무엇이 효과있었는지 판단할 수 없다.

병목개입 예시비용 유형기대 효과
A 부족태스크를 더 작게 분해하는 프롬프트 템플릿C_context성공률 ↑
C 부족실패 사례 기반 AGENTS.md 규칙 추가C_context반복 실수 ↓, Predictability ↑
P 부족pre-commit 훅으로 규칙 위반 시스템 차단C_processIntegrity 위반 → 0
K — Disuse의도적으로 한 단계 높은 위임 시도C_saCalibration 정교화, 능력 경계 탐색
K — Misuse위임 수준 하향 + 검토 빈도 증가C_sa품질 사고 방지, 보정 재조정

Phase 4: MEASURE — 변화 추적과 피드백

다음 1-2 세션에서 동일 메트릭을 재측정한다.

ΔV 결과해석대응
ΔV > 0개입 효과적성과 기록, 다음 병목으로 이동
ΔV ≈ 0개입 불충분 또는 잘못된 진단같은 병목에 다른 개입 시도 또는 재진단
ΔV < 0과잉 엔지니어링 또는 부작용개입 롤백, 원인 분석

이 측정 결과 자체가 다음 사이클의 OBSERVE 데이터가 되어 순환이 계속된다.


3. 장기 성장 궤적

단계별 전환 모델

자가 발전은 선형적이 아니라 계단형이다. Lewicki & Bunker의 신뢰 발달 단계와 동일한 패턴으로, 특정 요소가 임계점을 넘어야 질적 전환이 일어난다.

전환위임 범위촉발 요인Lewicki 대응
Phase 1 → 2함수 단위 → 파일 단위Context 축적 — AGENTS.md 핵심 규칙, 메모리 피드백이 Predictability 임계점 돌파Calculus → Knowledge
Phase 2 → 3파일 단위 → 기능 단위Process 성숙 — 가드레일·자동 검증이 심리적 안전감 임계점 돌파Knowledge 심화
Phase 3 → 4기능 단위 → 자율 운영Human Calibration — 태스크별 적정 위임 판단 숙련도 임계점 돌파Knowledge → Identification

신뢰의 3요인 × 3가지 엔지니어링 영역

Ability (능력)Predictability (예측 가능성)Integrity (원칙 준수)
Prompt Engineering태스크를 능력 범위에 맞게 분해출력 형식과 기대치 명시 → 분산 감소금지 사항, 제약 조건 명시
Context Engineering관련 코드/문서 제공 → 능력 발휘 조건AGENTS.md, 메모리로 동일 행동 기준 제공컨벤션, 규칙, 피드백 구조화
Process Engineering단계별 분할 → 각 단계 성공률 향상체크포인트/리뷰 루프 → 이탈 조기 감지훅, 가드레일 → 위반 시스템 차단

선순환과 역순환

선순환 (Virtuous Cycle):

위임 범위 확대
  → 에이전트가 더 다양한 태스크 수행
  → 더 많은 피드백 데이터 생성
  → Context/Process 개선 재료 증가
  → 시스템 품질 향상
  → 신뢰 보정이 더 정확해짐
  → 위임 범위 추가 확대

역순환 (Vicious Cycle):

대형 실패 발생
  → 신뢰 급락 (높은 단계일수록 회복 비용 ↑↑ — Lewicki)
  → 위임 범위 축소
  → 피드백 데이터 감소
  → 시스템 정체

Process 가드레일(P)은 이 역순환의 발생 확률을 낮추는 보험 역할을 한다.


4. 기존 평가 방식과의 차이

관점기존 벤치마크 (SWE-bench 등)신뢰 기반 프레임워크
측정 대상에이전트의 절대적 능력A × C × P × K 복합 시스템
지표코드 정확도, 태스크 완료율Impact Yield, Calibration Error, SA Score
개선 레버모델 업데이트 (외생적)C, P, K 3가지 내생적 레버 + A
핵심 질문"에이전트가 얼마나 똑똑한가?""이 규모의 일을 맡겼을 때, 내가 개입하지 않아도 되는 비율은?"

이 접근은 "AI가 더 똑똑해지기를 기다리는 것"(A의 외생적 향상)에만 의존하지 않는다. C, P, K라는 세 가지 내생적 레버를 통해 같은 모델 능력에서도 달성 가능한 임팩트를 체계적으로 높일 수 있다. 이것이 프롬프트/컨텍스트/프로세스 엔지니어링이 단순한 팁이 아니라 투자 가능한 자산인 이유다.


참고 논문

  • Lee, J.D., & See, K.A. (2004). Trust in Automation: Designing for Appropriate Reliance. Human Factors, 46(1), 50-80.
  • Parasuraman, R., Sheridan, T.B., & Wickens, C.D. (2000). A Model for Types and Levels of Human Interaction with Automation. IEEE Transactions on SMC, 30(3), 286-297.
  • Klein, G., et al. (2004). Ten Challenges for Making Automation a Team Player. IEEE Intelligent Systems, 19(6), 91-95.
  • Endsley, M.R. (1995). Toward a Theory of Situation Awareness in Dynamic Systems. Human Factors, 37(1), 32-64.
  • Hollnagel, E., & Woods, D.D. (2005). Joint Cognitive Systems. CRC Press.
  • Lewicki, R.J., & Bunker, B.B. (1996). Developing and Maintaining Trust in Work Relationships. In Trust in Organizations. Sage.
  • Edmondson, A. (1999). Psychological Safety and Learning Behavior in Work Teams. ASQ, 44(2), 350-383.
  • Jacovi, A., et al. (2021). Formalizing Trust in Artificial Intelligence. FAccT '21.
  • Mayer, R.C., Davis, J.H., & Schoorman, F.D. (1995). An Integrative Model of Organizational Trust. AMR, 20(3), 709-734.

업데이트 이력

  • 2026-04-04: 초안 작성 — 함수 정의(목적/가치/비용), 이터레이션 4단계 설계, 장기 성장 궤적

0 / 74