Experiment Plan — GlucoseWorks

실험 설계 원칙

3개 핵심 가설을 순차적으로 검증합니다. 실험 1+2는 병행, 실험 3은 실험 1 통과 후 진행.

실험 1: D7 리텐션 + 식이 기록 코호트 비교

가설

GlucoseWorks의 "패시브 추론 + 선택적 식이 기록 + 피드백 루프" 구조가 D7 리텐션 40% 이상을 달성하며, 식이 기록자가 비기록자 대비 유의미하게 높은 리텐션을 보인다.

최소 구현

TestFlight 배포 (현재 구현 상태 그대로)
"Without → With" 온보딩: Day 1-3 패시브 only → Day 4 식사 기록 유도 넛지
분석 이벤트: app_open, inference_run, meal_logged, chart_viewed, timeline_expanded, calibration_started
식이 기록 유무에 따른 자동 코호트 분류

측정 이벤트

이벤트	정의	성공 기준
전체 D7 리텐션	설치 후 7일째 앱 오픈	≥ 40% (Go)
식이 기록자 D7 리텐션	1회 이상 식사 기록한 사용자의 D7	≥ 50% (Go)
비기록자 D7 리텐션	식사 기록 0회 사용자의 D7	baseline 측정
일일 추론 실행	inference_run / DAU	≥ 1.5회
식이 기록 채택률	meal_logged_users / total_onboarded	≥ 40%
일일 식이 기록	meal_logged / DAU (기록자 한정)	≥ 1.5회

성공/실패 기준

Go: 전체 D7 ≥ 40% AND 식이 기록자 D7 ≥ 50% AND 추론 ≥ 1.5회/일
Refine: 전체 D7 20-39% OR 식이 기록자 D7 30-49%
Kill: 전체 D7 < 20% AND 식이 기록자 D7 < 30%

대상 & 모집

50-150명 (FastingWorks 사용자 + r/QuantifiedSelf + r/Biohackers)
Apple Watch 필수, iOS 17+

예상 공수

TestFlight 배포: 1일 (이미 구현 완료)
분석 이벤트 구현: 2-3일
Without→With 온보딩 넛지: 1-2일
모집: 3-5일
데이터 수집: 7일
총: 2-3주

실험 2: 고관여 세그먼트 리텐션

가설

식사 기록 빈도 ≥ 2회/일인 고관여 사용자가 일반 사용자 대비 D7 리텐션 +10pp 이상이며, WTP(지불 의사) ≥ 25%이다.

최소 구현

온보딩에 "대사 건강 루틴 추적 의향" 질문 1개 추가 (선택)
식이 기록 빈도 기반 자동 코호트 코딩
D7에 WTP 설문 1문항: "$5/월 지불 의사"

P2 대응: 표본력/검정 기준

가정:

기준선 리텐션 p1 = 0.30 (실험 1의 비기록자 예상)
목표 리텐션 p2 = 0.40
유의수준 α = 0.05, 검정력 power = 0.80

필요 표본: n_per_group ≈ 350 (총 700명)

운영상 최소 보완 규칙:

1차 탐색 기준: 최소 전체 150명 + 고관여 45명에서 방향성만 판단
판단 반영 기준: 95% 신뢰구간 기반 판정은 전체 700명 또는 고관여 210명 이상 확보 필요

측정 이벤트

이벤트	정의	성공 기준
고관여 코호트 비율	식이 기록 ≥ 2회/일 사용자 / 전체	≥ 30% AND 고관여 ≥ 45명
코호트 D7 리텐션	고관여 코호트의 D7	≥ 일반 코호트 +10pp
코호트 추론 빈도	고관여 코호트의 일일 추론	≥ 일반 코호트 × 1.3
WTP 설문 응답	고관여 코호트의 "$5/월 지불 의사" 비율	≥ 25%

성공/실패 기준

Go: 최소 표본 충족 시, 고관여 D7 ≥ 일반 +10pp AND WTP ≥ 25%
Refine: 리텐션 차이 +5-9pp OR WTP 15-24%
Kill: 리텐션 차이 < 5pp AND WTP < 15%

대상

실험 1과 동일 집단에서 코호트 추출
최소 표본 미달 시 추가 모집

예상 공수

온보딩 질문 추가: 0.5일
WTP 설문 구현: 0.5일
실험 1과 병행이므로 추가 일정 없음

실험 3: 캘리브레이션 + 식이 기록 정확도 파일럿

가설

GlucoseWorks의 캘리브레이션 + 식이 기록이 비캘리브레이션/비기록 대비 추론-실측 상관을 유의미하게 향상시킨다.

최소 구현

참가자에게 OTC CGM(Stelo/Lingo) 또는 finger-prick 미터 제공 (지원비 보조)
14일간 최소 10회 혈당 실측값 입력 요청
4개 코호트 자동 분류:
1. 캘리브레이션 O + 식이 기록 O
2. 캘리브레이션 O + 식이 기록 X
3. 캘리브레이션 X + 식이 기록 O
4. 캘리브레이션 X + 식이 기록 X

측정 이벤트

이벤트	정의	성공 기준
캘리브레이션 완료율	calibration_active / enrolled	≥ 60%
식이 기록 준수율	식이 기록 ≥ 2회/일 달성 비율	≥ 50%
코호트 1 상관 (Cal+Diet)	추론 vs 실측 Pearson r	≥ 0.40 (Go)
코호트 2 상관 (Cal only)	추론 vs 실측 Pearson r	baseline 측정
코호트 3 상관 (Diet only)	추론 vs 실측 Pearson r	baseline 측정
코호트 4 상관 (Neither)	추론 vs 실측 Pearson r	baseline 측정
식이 기록 정확도 향상 폭	코호트 1 r - 코호트 2 r	≥ +0.10
체감 정확도 향상	사후 설문 - 사전 설문 (1-10)	≥ +2.0

성공/실패 기준

Go: 코호트 1 r ≥ 0.40 AND 체감 정확도 +2.0 AND 식이 기록 향상 폭 ≥ +0.10
Refine: 코호트 1 r 0.25-0.39 OR 체감 정확도 +1.0-1.9
Kill: 코호트 1 r < 0.25 AND 체감 < +1.0 AND 식이 기록이 정확도 향상에 기여 없음

대상

25명 × 14일 (Apple Watch + OTC CGM/finger-prick 사용 가능)
모집: r/QuantifiedSelf, 바이오해커 커뮤니티, Tab0 기존 사용자
CGM 비용 보조: Stelo $84/센서 × 1-2개 = $84-168/인

예상 공수

CGM 배송/조달: 1주
참가자 모집: 1주
데이터 수집: 14일
분석: 3-5일
총: 4-5주 (실험 1 이후 순차)

실험 우선순위

순위	실험	이유
1	실험 1	가장 빠르게 실행 가능. UX 리텐션 + 식이 기록 효과가 전제.
2	실험 2	실험 1과 병행 (온보딩 질문 + WTP 설문 추가만).
3	실험 3	CGM 하드웨어 조달 필요. 실험 1 Kill이면 불필요.

전체 타임라인

Week 1-2:  실험 1+2 준비 (분석 이벤트, Without→With 온보딩, WTP 설문)
Week 3:    모집 시작 (FastingWorks + Reddit + HN)
Week 4:    실험 1+2 데이터 수집 (7일)
Week 5:    실험 1+2 결과 분석 + 1차 Go/Refine/Kill
Week 5-6:  실험 3 참가자 모집 + CGM 배송
Week 7-8:  실험 3 데이터 수집 (14일)
Week 9:    전체 결과 종합 + 최종 Go/Refine/Kill