AI 에이전트 신뢰 이론 종합

개요

AI 코딩 에이전트를 활용하는 과정은 결국 "얼마나 크고 중요한 일을 에이전트에게 믿고 맡길 수 있는가"의 문제다. 이 문서는 조직 신뢰 이론, 자동화 신뢰 연구, AI 신뢰 형식화 연구를 종합하여 AI 에이전트 협업에 적용 가능한 통합 프레임워크를 구축한다.

1. 조직 내 신뢰 모델 — 신뢰의 구성 요소

1.1 Mayer, Davis & Schoorman (1995) — ABI 통합 모델

경영학에서 가장 많이 인용되는(20,000+ 인용) 신뢰 모델이다. 신뢰를 세 가지 선행 요인으로 분해한다.

요인	정의	AI 에이전트 맥락
Ability (능력)	특정 영역에서의 역량	코드 정확도, 언어/프레임워크 숙련도
Benevolence (선의)	상대방의 이익을 고려하는가	→ AI에는 의도 없음 → Predictability로 재해석
Integrity (진실성)	수용 가능한 원칙을 일관 준수하는가	AGENTS.md 규칙, git 컨벤션, 코딩 표준 준수

이 세 요인이 결합되어 신뢰 성향(propensity to trust)과 함께 "위험을 감수하려는 의지(willingness to be vulnerable)"를 결정한다.

"Trust is the willingness of a party to be vulnerable to the actions of another party based on the expectation that the other will perform a particular action important to the trustor, irrespective of the ability to monitor or control that other party." — Mayer et al. (1995), p. 712

Mayer & Davis(1999)가 후속 연구에서 설문 척도를 개발하여 실증 검증했으며, 이 척도는 조직 신뢰 연구의 사실상 표준이다.

출처: Mayer, R.C., Davis, J.H., & Schoorman, F.D. (1995). An Integrative Model of Organizational Trust. Academy of Management Review, 20(3), 709-734.

1.2 McAllister (1995) — 인지적/정서적 신뢰 이원 모델

대인 간 신뢰를 두 차원으로 구분한다.

차원	기반	측정	AI 에이전트 대응
인지적 신뢰 (Cognition-based)	역량과 신뢰성에 대한 합리적 판단	6문항	에이전트의 코드 품질에 대한 평가
정서적 신뢰 (Affect-based)	정서적 유대와 상호 배려	5문항	"이 에이전트와 일하는 것이 편하다"는 심리적 안정감

핵심 발견은 인지적 신뢰가 일정 수준 이상이어야 정서적 신뢰가 형성된다는 것이다. 정서적 신뢰가 높을수록 조직시민행동(OCB)이 증가한다.

출처: McAllister, D.J. (1995). Affect- and Cognition-Based Trust as Foundations for Interpersonal Cooperation in Organizations. Academy of Management Journal, 38(1), 24-59.

1.3 Lewicki & Bunker (1996) — 신뢰 발달 3단계

신뢰를 정적 상태가 아니라 시간에 따라 발전하는 과정으로 본다.

단계	기반	AI 에이전트 맥락
Calculus-based	이해 타산 (보상/처벌 계산)	"이걸 시키면 시간을 아낄 수 있을까?"
Knowledge-based	반복 경험으로 생긴 예측 가능성	"이 에이전트는 이 유형에서 잘하고, 저 유형에서 부족하다"
Identification-based	가치관 동일시	"에이전트가 내 코딩 스타일과 품질 기준을 내재화했다"

AGENTS.md와 메모리 시스템의 성숙은 Knowledge → Identification 전환을 촉진한다. 높은 단계의 신뢰가 깨지면 회복 비용이 불균형적으로 크다는 점도 중요하다.

출처: Lewicki, R.J., & Bunker, B.B. (1996). Developing and Maintaining Trust in Work Relationships. In R. Kramer & T. Tyler (Eds.), Trust in Organizations. Sage, 114-139.

1.4 Edmondson (1999) — Psychological Safety

신뢰와 밀접하지만 구분되는 개념으로, 팀 수준에서 "대인 관계 위험을 감수해도 안전하다"는 공유된 믿음이다. 7문항 척도로 측정하며, Google의 Project Aristotle(2015)에서 팀 성과의 최우선 예측 변인으로 확인되었다.

AI 에이전트 맥락에서 심리적 안전감은 "에이전트에게 큰 일을 맡겨봐도 최악의 경우 되돌릴 수 있다" 는 확신이다.

심리적 안전감의 원천	구현
실패해도 되돌릴 수 있다	git 히스토리, 브랜치 격리
규칙 위반이 시스템적으로 차단된다	pre-commit 훅, 가드레일
결과를 사전에 검증할 수 있다	자동 테스트, 린트, 타입체크

출처: Edmondson, A. (1999). Psychological Safety and Learning Behavior in Work Teams. Administrative Science Quarterly, 44(2), 350-383.

1.5 기타 측정 도구

도구	개발자	차원	규모
OTI (Organizational Trust Inventory)	Cummings & Bromiley (1996)	약속 이행, 정직한 협상, 기회주의 자제	62문항 (단축형 12문항)
Great Place to Work Trust Index	Levering (2000)	신뢰성, 존중, 공정성, 자부심, 동료애	60문항, 연간 100개국+ 사용

Rousseau et al. (1998) 의 학제 간 합의적 정의:

"Trust is a psychological state comprising the intention to accept vulnerability based upon positive expectations of the intentions or behavior of another." — p. 395

2. 자동화/AI 신뢰 연구 — "적정 신뢰"의 문제

2.1 Lee & See (2004) — Appropriate Reliance

이 분야의 가장 중요한 논문이다. 핵심 주장: 신뢰가 높은 것이 좋은 게 아니라, 신뢰가 시스템의 실제 능력과 일치(calibrated)하는 것이 좋다.

오류 유형	정의	AI 에이전트 예시	결과
Misuse (과신)	능력 이상의 것을 맡김	검증 없이 아키텍처 설계 통째로 위임	품질 사고, 재작업
Disuse (불신)	능력 내의 것도 안 맡김	매번 한 줄씩 지시하고 줄줄이 검토	시간 낭비, 기회 손실
Abuse (오용)	설계 의도와 다른 용도로 사용	코딩 에이전트에게 법률 자문 요청	부적절한 결과

이 관점에서 목적 함수는 "신뢰 최대화"가 아니라 "Misuse와 Disuse의 동시 최소화" 다.

출처: Lee, J.D., & See, K.A. (2004). Trust in Automation: Designing for Appropriate Reliance. Human Factors, 46(1), 50-80.

2.2 Parasuraman, Sheridan & Wickens (2000) — Levels of Automation

자동화를 0 또는 1이 아니라 10단계 스펙트럼으로 본다.

Level	설명	AI 코딩 에이전트 예시
1	인간이 모든 것을 결정하고 실행	수동 코딩
2-3	시스템이 대안 제시 / 하나를 추천	Copilot 자동완성
4	시스템이 실행하되 인간 승인 필요	Claude Code 기본 모드
5-6	시스템이 실행하고 인간에게 알림	Claude Code auto 모드
7-8	시스템이 실행, 요청 시에만 알림	Codex 백그라운드 에이전트
9-10	완전 자율 — 인간 개입 불가/무시	(현재 없음)

핵심 통찰: 태스크의 성격에 따라 적정 레벨이 다르다. 모든 태스크를 같은 레벨로 처리하면 어딘가에서 반드시 Misuse 또는 Disuse가 발생한다.

더 나아가 이 모델은 자동화의 네 가지 기능에 대해 독립적으로 레벨을 설정할 수 있다고 제안한다.

기능	설명	AI 에이전트 예시
Information Acquisition	정보 수집	코드베이스 탐색, 문서 참조
Information Analysis	정보 분석	버그 원인 분석, 아키텍처 평가
Decision Selection	의사결정	구현 방식 선택, 리팩토링 전략
Action Implementation	실행	코드 작성, 커밋, PR 생성

"코드 분석"과 "코드 작성"의 자동화 레벨을 다르게 설정하는 것이 가능하다.

출처: Parasuraman, R., Sheridan, T.B., & Wickens, C.D. (2000). A Model for Types and Levels of Human Interaction with Automation. IEEE Transactions on Systems, Man, and Cybernetics, 30(3), 286-297.

2.3 Klein, Woods, Bradshaw et al. (2004) — OPD 프레임워크

자동화가 "좋은 팀 플레이어"가 되기 위한 세 가지 속성을 정의한다.

속성	정의	컨텍스트 엔지니어링에서의 의미	구현 예시
Observable	지금 뭘 하고 있고 왜 하는지 볼 수 있는가	사고 과정의 투명성	Plan 모드, 태스크 리스트, 사고 과정 출력
Predictable	다음에 뭘 할지 예상할 수 있는가	일관된 행동 기준	AGENTS.md 규칙, 메모리 피드백 축적
Directable	방향을 바꾸라고 했을 때 따르는가	중간 개입의 실효성	체크포인트, 승인 단계, 중간 리뷰 루프

Directability가 핵심이다. "맡기되 가이드하고 중간 개입한다"는 것은 곧 Directability의 문제다. 아무리 능력이 좋아도 중간에 방향 수정이 안 되면 큰 태스크를 맡길 수 없다.

출처: Klein, G., Woods, D.D., Bradshaw, J.M., Hoffman, R.R., & Feltovich, P.J. (2004). Ten Challenges for Making Automation a Team Player. IEEE Intelligent Systems, 19(6), 91-95.

2.4 Endsley (1995) — Situation Awareness와 위임의 역설

자동화에 너무 많이 의존하면 인간이 상황 인식(SA)을 잃는다.

SA 단계	정의	AI 에이전트 맥락
Level 1: Perception	현재 무슨 일이 벌어지고 있는지 인지	코드베이스에 어떤 변경이 있었는지 알고 있는가
Level 2: Comprehension	그것이 무엇을 의미하는지 이해	변경이 시스템에 어떤 영향을 미치는지 이해하는가
Level 3: Projection	앞으로 어떻게 될지 예측	다음 우선순위와 잠재 리스크를 판단할 수 있는가

위임의 역설:

완전 위임으로 PR이 올라옴
  → 코드베이스 현재 상태에 대한 SA 하락
  → SA 떨어진 상태에서 리뷰 → 검토 질 하락 → 문제 놓침
  → 문제 쌓임 → 신뢰 무너짐 → 과도한 개입으로 회귀

위임을 늘릴수록 위임의 질(효과적인 감독과 리뷰)이 나빠질 수 있다.

따라서 적정 위임 수준에는 인간의 SA 유지 비용도 반드시 포함해야 한다.

출처: Endsley, M.R. (1995). Toward a Theory of Situation Awareness in Dynamic Systems. Human Factors, 37(1), 32-64.

2.5 Hollnagel & Woods (2005) — Joint Cognitive Systems

인간과 기계를 별개의 행위자가 아니라 하나의 인지 시스템으로 본다.

기존 관점	Joint Cognitive Systems 관점
인간이 감독하고, 기계가 실행	인간과 기계가 함께 인지하고 해결
컨텍스트 = 에이전트에게 정보 "주입"	컨텍스트 = 공유 인지 공간 구축
AGENTS.md = 에이전트 설정 파일	AGENTS.md = 공유 멘탈 모델의 명문화

이 관점에서 AGENTS.md, 메모리, 피드백 축적은 모두 인간과 에이전트의 공유 인지 공간(shared representation) 을 넓히는 활동이다.

출처: Hollnagel, E., & Woods, D.D. (2005). Joint Cognitive Systems: Foundations of Cognitive Systems Engineering. CRC Press.

2.6 Jacovi et al. (2021) — Contractual Trust in AI

AI 신뢰를 계약적(contractual) 관점으로 형식화한다.

개념	정의	AI 에이전트 맥락
계약(Contract)	사용자가 AI에 대해 갖는 명시적 기대	AGENTS.md의 규칙과 제약 조건
이행(Fulfillment)	AI가 계약을 준수하는 정도	규칙 준수율, 컨벤션 따르기
위반(Violation)	계약 불이행	main 직접 커밋, force push, 불필요한 변경

AGENTS.md가 사실상 "인간-에이전트 간 계약서" 역할을 한다. 계약이 구체적이고 명확할수록 신뢰 평가가 정확해지고, 위반 시 원인 진단과 수정이 용이하다.

출처: Jacovi, A., Marasovic, A., Miller, T., & Goldberg, Y. (2021). Formalizing Trust in Artificial Intelligence: Prerequisites, Causes and Goals of Human Trust in AI. FAccT '21, 624-635.

3. 통합: AI 에이전트 협업에의 적용

이론 간 관계 맵

출발점 (조직 신뢰)	확장 (자동화 신뢰)	적용 (AI 에이전트)
Mayer ABI (신뢰의 구성 요소)	→ Lee & See (적정 의존 + 보정)	→ Calibrated Trust (보정된 신뢰 기반 위임)
Lewicki 3단계 (신뢰 발달 과정)	→ Sheridan Levels (자동화 수준 스펙트럼)	→ Adaptive Delegation (태스크별 적정 위임)
Edmondson (심리적 안전감)	→ Endsley SA (상황 인식 유지)	→ SA-Preserving Oversight (위임 확대 시 SA 보존)
—	→ Klein OPD (팀 플레이어 속성)	→ Agent Design Principles (O, P, D)
—	→ Hollnagel JCS (공동 인지 시스템)	→ Shared Cognitive Space (컨텍스트 = 공유 멘탈 모델)
—	→ Jacovi Contractual (계약적 신뢰)	→ AGENTS.md as Contract (명시적 기대 = 측정 가능한 신뢰)

왜 ABI만으로 부족한가

한계	설명	보완 이론
과신 문제 미고려	ABI는 "신뢰↑ = 좋다"를 전제하지만, Misuse도 심각한 문제	Lee & See — 목표는 최대화가 아니라 보정
정적 평가	실제 협업에서 신뢰는 태스크마다 동적으로 조절되어야 함	Sheridan — 태스크별 적정 레벨 설정
신뢰 대상만 평가	위임하는 인간의 SA 유지 비용, 시스템 전체의 설계도 고려 필요	Endsley SA, Klein OPD, Hollnagel JCS

따라서 통합 프레임워크는 ABI를 출발점으로 삼되, 적정 의존(Lee & See), 위임 수준(Sheridan), 상황 인식(Endsley), 팀 설계(Klein), 공동 인지(Hollnagel), 계약적 신뢰(Jacovi)를 모두 포괄해야 한다.

다차원 통합 프레임워크

각 태스크에 대해 다음을 결정한다:

질문	기반 이론	실천
이 태스크에 적정한 자동화 레벨은?	Sheridan Levels	복잡도/리스크에 따라 L2~L7 선택
에이전트가 지금 뭘 하고 있는지 보이는가?	Klein OPD — Observable	Plan 모드, 태스크 리스트, 사고 과정 출력
중간에 방향을 바꿀 수 있는가?	Klein OPD — Directable	체크포인트, 승인 단계, 중간 리뷰
내가 코드베이스 이해를 잃지 않는가?	Endsley SA	적절한 빈도로 직접 검토, 핵심 결정은 직접
결과가 기대와 맞았는가?	Lee & See Calibration	세션 후 리뷰, 피드백을 메모리/규칙에 반영

참고 논문

Mayer, R.C., Davis, J.H., & Schoorman, F.D. (1995). An Integrative Model of Organizational Trust. Academy of Management Review, 20(3), 709-734.
McAllister, D.J. (1995). Affect- and Cognition-Based Trust as Foundations for Interpersonal Cooperation in Organizations. Academy of Management Journal, 38(1), 24-59.
Cummings, L.L., & Bromiley, P. (1996). The Organizational Trust Inventory (OTI). In R. Kramer & T. Tyler (Eds.), Trust in Organizations. Sage.
Lewicki, R.J., & Bunker, B.B. (1996). Developing and Maintaining Trust in Work Relationships. In R. Kramer & T. Tyler (Eds.), Trust in Organizations. Sage, 114-139.
Endsley, M.R. (1995). Toward a Theory of Situation Awareness in Dynamic Systems. Human Factors, 37(1), 32-64.
Rousseau, D.M., Sitkin, S.B., Burt, R.S., & Camerer, C. (1998). Not So Different After All: A Cross-Discipline View of Trust. Academy of Management Review, 23(3), 393-404.
Edmondson, A. (1999). Psychological Safety and Learning Behavior in Work Teams. Administrative Science Quarterly, 44(2), 350-383.
Parasuraman, R., Sheridan, T.B., & Wickens, C.D. (2000). A Model for Types and Levels of Human Interaction with Automation. IEEE Transactions on SMC, 30(3), 286-297.
Lee, J.D., & See, K.A. (2004). Trust in Automation: Designing for Appropriate Reliance. Human Factors, 46(1), 50-80.
Klein, G., Woods, D.D., Bradshaw, J.M., Hoffman, R.R., & Feltovich, P.J. (2004). Ten Challenges for Making Automation a Team Player. IEEE Intelligent Systems, 19(6), 91-95.
Hollnagel, E., & Woods, D.D. (2005). Joint Cognitive Systems: Foundations of Cognitive Systems Engineering. CRC Press.
Jacovi, A., Marasovic, A., Miller, T., & Goldberg, Y. (2021). Formalizing Trust in Artificial Intelligence. FAccT '21, 624-635.

업데이트 이력

2026-04-04: 초안 작성 — 12개 핵심 연구 종합, 통합 프레임워크 도출