AI 에이전트 협업 자가 발전 시스템 설계

개요

AI 코딩 에이전트와의 협업에서 점점 더 크고 깊은 임팩트를 달성하기 위한 자가 발전 시스템을 설계한다. 조직 신뢰 이론과 자동화 신뢰 연구를 기반으로 목적 함수, 가치 함수, 비용 함수를 정의하고, 이터레이션과 이밸류에이션 메커니즘을 구축한다.

이 시스템의 핵심 전제는 두 가지다:

전제	근거	의미
"보정된 신뢰"가 목표	Lee & See (2004)	신뢰 최대화가 아니라, 에이전트의 실제 능력에 부합하는 적정 위임과 개입
"복합 시스템"의 최적화	Hollnagel & Woods (2005)	에이전트 성능만이 아니라 컨텍스트, 프로세스, 인간 숙련도를 포함하는 전체 시스템

1. 함수 정의

1a. 목적 함수 (Objective Function) — 무엇을 최적화하는가

Maximize:  O(t) = I(t) / H(t)

subject to:
  (1) |Trust(t) - Capability(t)| ≤ ε    — 신뢰 보정 제약
  (2) SA(t) ≥ SA_min                    — 상황 인식 하한

기호	정의	설명
I(t)	Impact	시점 t에서 달성한 결과의 임팩트 총량
H(t)	Human Effort	투입한 인간의 시간과 인지 부하 총량
ε	Calibration Tolerance	허용 가능한 신뢰-능력 보정 오차 범위
SA_min	SA 하한	효과적 감독을 위한 최소 상황 인식 수준

왜 I/H 비율인가:

I만 최대화	H만 최소화	I/H 비율 최대화
인간이 24시간 감시해도 "최적"	아무것도 안 시키는 것이 "최적"	"적은 개입으로 큰 임팩트" 포착

제약 조건의 근거:

제약	근거 이론	위반 시 결과
(1) 신뢰 보정	Lee & See — Appropriate Reliance	Trust > Capability → Misuse (품질 사고) / Trust < Capability → Disuse (기회 손실)
(2) SA 하한	Endsley — Situation Awareness	SA < SA_min → 효과적 감독·의사결정 불가능 → 위임의 역설 발생

1b. 가치 함수 (Value Function) — 현재 상태의 장기적 가치

V(S) = Σ γ^k · E[O(t+k) | S(t) = S]     (k = 0, 1, 2, ...)

γ = 할인율 (0 < γ < 1), 가까운 미래의 임팩트가 더 가치 있음

시스템 상태 S(t)의 구성 요소:

요소	정의	포함 내용	가치 기여 방식	특성
A(t) Agent	에이전트의 현재 능력	모델 기본 능력, OPD 속성 (Klein)	위임 가능한 태스크의 상한 결정	외생적, 점프형 (모델 업데이트)
C(t) Context	공유 인지 공간의 성숙도 (Hollnagel)	AGENTS.md 규칙, 메모리 축적, 도메인 문서화	같은 A에서도 실제 성공률 향상	내생적, 누적형
P(t) Process	시스템적 안전장치의 성숙도	가드레일/훅, 체크포인트, 자동 검증	Integrity 위반 확률 감소, 심리적 안전감 (Edmondson) 증대	내생적, 투자 필요
K(t) Human	인간의 숙련도	Calibration 정확도, 엔지니어링 숙련도, 도메인 전문성	Misuse/Disuse 감소, 적정 위임 판단 정교화	내생적, 경험 의존

곱셈적 상호작용 — "병목 우선 투자" 원칙의 이론적 근거:

V ≈ f(A × C × P × K)

→ 어느 하나가 0에 가까우면 전체 가치가 무너짐
→ min(A, C, P, K)를 올리는 것이 ROI가 가장 높음
→ 이미 높은 요소를 더 올리는 것은 한계 효용이 낮음

1c. 비용 함수 (Cost Function) — 무엇을 지불하는가

Cost(t) = C_context + C_process + C_sa + C_repair + C_opportunity

비용 항목	설명	예시	특성
C_context	컨텍스트 구축/유지	AGENTS.md 작성, 메모리 정리, 문서화	초기 투자 크지만 체감 비용 감소
C_process	프로세스 구축/유지	훅 개발, 가드레일, CI/CD 설정	일회성 투자, C_repair과 C_sa를 크게 줄임
C_sa	상황 인식 유지	코드 리뷰, PR 검토, 아키텍처 이해 유지	위임↑ → 개별 검토↓, 대규모 이해 비용↑
C_repair	신뢰 회복	디버깅, 롤백, 규칙 보강	위임↑ → 실패 파급 범위↑ → C_repair↑
C_opportunity	기회 비용	시스템 개선에 쓴 시간 = 제품 개발 못한 시간	단기 비용이지만 장기 O(t) 향상 투자

위임 수준에 따른 비용 역학:

위임 수준	C_context	C_process	C_sa	C_repair	C_opportunity
낮은 위임 (L1-L3)	낮음	낮음	높음 (매번 상세 검토)	낮음 (파급 범위 작음)	높음 (직접 해야 함)
중간 위임 (L4-L6)	중간	중간	중간	중간	중간
높은 위임 (L7-L8)	높음 (정교한 규칙 필요)	높음 (안전장치 필수)	낮음	높음 (실패 시 대형)	낮음

최적점은 총 비용 최소가 아니라, 순 가치 (V - Cost)의 기울기가 최대인 지점이다.

2. 이터레이션과 이밸류에이션

사이클 개요

  ┌──────────────────────────────────────────────────────┐
  │                                                      │
  ▼                                                      │
┌──────────┐    ┌──────────┐    ┌──────────┐    ┌───────┴──┐
│ OBSERVE  │───▶│ EVALUATE │───▶│ INTERVENE│───▶│ MEASURE  │
│          │    │          │    │          │    │          │
│ 세션에서  │    │ 병목 진단 │    │ 가장 낮은 │    │ 다음 세션 │
│ 데이터 수집│    │ 어디에   │    │ 요소에   │    │ 에서 변화 │
│          │    │ 투자할까? │    │ 집중 투자 │    │ 추적     │
└──────────┘    └──────────┘    └──────────┘    └──────────┘

각 사이클은 개인 기준 1-2주, 팀 기준 스프린트 단위가 적절하다.

Phase 1: OBSERVE — 세션별 데이터 수집

매 작업 세션에서 수집할 데이터:

태스크 레코드:

필드	설명	값 예시
description	태스크 설명	"FastingWorks 단식 타이머 리팩토링"
delegation_level	위임 수준 (Sheridan L1-L10)	L5
outcome	결과	success / partial / failure
interventions	중간 개입 횟수와 유형	2회 (방향 수정 1, 오류 수정 1)
rework	재작업 필요 여부와 규모	없음 / 소규모 / 대규모
impact_size	임팩트 크기	S / M / L / XL

신뢰 이벤트:

유형	설명	예시
breach	기대 위반	에이전트가 main에 직접 커밋 시도
confirmation	기대 충족 확인	복잡한 리팩토링을 정확히 완수
surprise_success	예상 밖 성공	기대하지 않은 엣지 케이스까지 처리

각 이벤트에 영향받은 요인(ability / predictability / directability)을 태깅한다.

SA 자가 점검 (세션 종료 시):

질문	척도
코드베이스 변경사항을 이해하고 있는가?	1-5
다음 우선순위를 판단할 수 있는가?	1-5

SA 점수가 지속적으로 낮으면 → 위임 수준이 SA 용량을 초과하고 있다는 신호.

Phase 2: EVALUATE — 핵심 메트릭 산출과 병목 진단

3가지 핵심 메트릭:

메트릭	산출 방법	추적 목표	대응 함수
Impact Yield	Σ(impact_size × outcome_quality) / Σ(human_time)	세션마다 상승	목적 함수 O(t)
Calibration Error	mean(\|delegation_level - appropriate_level\|)	0에 수렴	보정 제약 (1)
SA Score	세션별 SA 자가 점검 평균	SA_min(3.0/5.0) 이상 유지	SA 하한 제약 (2)

impact_size 환산: S=1, M=2, L=4, XL=8. outcome_quality: 1.0=완벽, 0.7=수정 필요, 0.3=재작업, 0=실패.

병목 진단 매트릭스:

증상	병목 요소	Lee & See 분류	우선 개입
에이전트가 자주 틀림	A (Agent)	—	프롬프트 분해, 컨텍스트 보강
같은 실수를 반복함	C (Context)	—	메모리/피드백 축적, AGENTS.md 보강
규칙을 어기는 결과물	P (Process)	—	훅/가드레일 추가
맡기면 되는 걸 직접 함	K (Human)	Disuse	위임 실험, 경계 탐색
맡겼다가 대형 사고	K (Human)	Misuse	Calibration 재조정, 위임 수준 하향
검토에 너무 오래 걸림	C+P 복합	—	Observable 개선, 자동 검증 확대

Phase 3: INTERVENE — 병목 요소에 집중 투자

원칙: 한 사이클에 한 요소만 개선한다. 여러 요소를 동시에 바꾸면 무엇이 효과있었는지 판단할 수 없다.

병목	개입 예시	비용 유형	기대 효과
A 부족	태스크를 더 작게 분해하는 프롬프트 템플릿	C_context	성공률 ↑
C 부족	실패 사례 기반 AGENTS.md 규칙 추가	C_context	반복 실수 ↓, Predictability ↑
P 부족	pre-commit 훅으로 규칙 위반 시스템 차단	C_process	Integrity 위반 → 0
K — Disuse	의도적으로 한 단계 높은 위임 시도	C_sa	Calibration 정교화, 능력 경계 탐색
K — Misuse	위임 수준 하향 + 검토 빈도 증가	C_sa	품질 사고 방지, 보정 재조정

Phase 4: MEASURE — 변화 추적과 피드백

다음 1-2 세션에서 동일 메트릭을 재측정한다.

ΔV 결과	해석	대응
ΔV > 0	개입 효과적	성과 기록, 다음 병목으로 이동
ΔV ≈ 0	개입 불충분 또는 잘못된 진단	같은 병목에 다른 개입 시도 또는 재진단
ΔV < 0	과잉 엔지니어링 또는 부작용	개입 롤백, 원인 분석

이 측정 결과 자체가 다음 사이클의 OBSERVE 데이터가 되어 순환이 계속된다.

3. 장기 성장 궤적

단계별 전환 모델

자가 발전은 선형적이 아니라 계단형이다. Lewicki & Bunker의 신뢰 발달 단계와 동일한 패턴으로, 특정 요소가 임계점을 넘어야 질적 전환이 일어난다.

전환	위임 범위	촉발 요인	Lewicki 대응
Phase 1 → 2	함수 단위 → 파일 단위	Context 축적 — AGENTS.md 핵심 규칙, 메모리 피드백이 Predictability 임계점 돌파	Calculus → Knowledge
Phase 2 → 3	파일 단위 → 기능 단위	Process 성숙 — 가드레일·자동 검증이 심리적 안전감 임계점 돌파	Knowledge 심화
Phase 3 → 4	기능 단위 → 자율 운영	Human Calibration — 태스크별 적정 위임 판단 숙련도 임계점 돌파	Knowledge → Identification

신뢰의 3요인 × 3가지 엔지니어링 영역

	Ability (능력)	Predictability (예측 가능성)	Integrity (원칙 준수)
Prompt Engineering	태스크를 능력 범위에 맞게 분해	출력 형식과 기대치 명시 → 분산 감소	금지 사항, 제약 조건 명시
Context Engineering	관련 코드/문서 제공 → 능력 발휘 조건	AGENTS.md, 메모리로 동일 행동 기준 제공	컨벤션, 규칙, 피드백 구조화
Process Engineering	단계별 분할 → 각 단계 성공률 향상	체크포인트/리뷰 루프 → 이탈 조기 감지	훅, 가드레일 → 위반 시스템 차단

선순환과 역순환

선순환 (Virtuous Cycle):

위임 범위 확대
  → 에이전트가 더 다양한 태스크 수행
  → 더 많은 피드백 데이터 생성
  → Context/Process 개선 재료 증가
  → 시스템 품질 향상
  → 신뢰 보정이 더 정확해짐
  → 위임 범위 추가 확대

역순환 (Vicious Cycle):

대형 실패 발생
  → 신뢰 급락 (높은 단계일수록 회복 비용 ↑↑ — Lewicki)
  → 위임 범위 축소
  → 피드백 데이터 감소
  → 시스템 정체

Process 가드레일(P)은 이 역순환의 발생 확률을 낮추는 보험 역할을 한다.

4. 기존 평가 방식과의 차이

관점	기존 벤치마크 (SWE-bench 등)	신뢰 기반 프레임워크
측정 대상	에이전트의 절대적 능력	A × C × P × K 복합 시스템
지표	코드 정확도, 태스크 완료율	Impact Yield, Calibration Error, SA Score
개선 레버	모델 업데이트 (외생적)	C, P, K 3가지 내생적 레버 + A
핵심 질문	"에이전트가 얼마나 똑똑한가?"	"이 규모의 일을 맡겼을 때, 내가 개입하지 않아도 되는 비율은?"

이 접근은 "AI가 더 똑똑해지기를 기다리는 것"(A의 외생적 향상)에만 의존하지 않는다. C, P, K라는 세 가지 내생적 레버를 통해 같은 모델 능력에서도 달성 가능한 임팩트를 체계적으로 높일 수 있다. 이것이 프롬프트/컨텍스트/프로세스 엔지니어링이 단순한 팁이 아니라 투자 가능한 자산인 이유다.

참고 논문

Lee, J.D., & See, K.A. (2004). Trust in Automation: Designing for Appropriate Reliance. Human Factors, 46(1), 50-80.
Parasuraman, R., Sheridan, T.B., & Wickens, C.D. (2000). A Model for Types and Levels of Human Interaction with Automation. IEEE Transactions on SMC, 30(3), 286-297.
Klein, G., et al. (2004). Ten Challenges for Making Automation a Team Player. IEEE Intelligent Systems, 19(6), 91-95.
Endsley, M.R. (1995). Toward a Theory of Situation Awareness in Dynamic Systems. Human Factors, 37(1), 32-64.
Hollnagel, E., & Woods, D.D. (2005). Joint Cognitive Systems. CRC Press.
Lewicki, R.J., & Bunker, B.B. (1996). Developing and Maintaining Trust in Work Relationships. In Trust in Organizations. Sage.
Edmondson, A. (1999). Psychological Safety and Learning Behavior in Work Teams. ASQ, 44(2), 350-383.
Jacovi, A., et al. (2021). Formalizing Trust in Artificial Intelligence. FAccT '21.
Mayer, R.C., Davis, J.H., & Schoorman, F.D. (1995). An Integrative Model of Organizational Trust. AMR, 20(3), 709-734.

업데이트 이력

2026-04-04: 초안 작성 — 함수 정의(목적/가치/비용), 이터레이션 4단계 설계, 장기 성장 궤적