Experiment Plan — GlucoseWorks

실험 설계 원칙

이전 리서치(2026-02-09)의 "Refine" 결론에서 Go 전환을 위해 검증해야 할 3대 가설을 7일 실험으로 설계합니다.

P2 대응: 표본력/검정 기준

실험2는 일반군 대비 고관여 코호트 D7 리텐션 +10pp가 핵심 판정이므로, 통계적으로 의미 있는 비교를 위해 사전 표본 설계를 둡니다.

가정:

기준선 리텐션 p1 = 0.20
목표 리텐션 p2 = 0.30
유의수준 α = 0.05, 검정력 power = 0.80

필요 표본 근사식:

n_per_group ≈ ((Z(1-α/2)*√(2*p̄*(1-p̄)) + Z*(power)√(p1*(1-p1)+p2*(1-p2)))^2) / (p2-p1)^2

위 가정에서 n_per_group ≈ 230 (총 460명, 고관여군 약 138명) 수준이 필요합니다.

운영상 최소 보완 규칙:

1차 탐색 기준: 최소 전체 150명 + 고관여 45명에서 방향성만 판단
판단 반영 기준: 95% 신뢰구간 기반으로 통계 판정을 하려면 전체 460명 또는 고관여 코호트 130명 이상 확보 필요
미달 시: 실험은 재실시(추가 모집)로 전환

실험 1: 소비자 UX 리텐션 검증

가설

GlucoseWorks의 소비자 UI(Glucose Health Score Card + Post-Meal Timeline + Chart)가 7일 리텐션 20% 이상을 달성할 수 있다.

최소 구현

GlucoseWorks 앱을 TestFlight 배포
Apple Health 연동 온보딩 플로우 완성
기본 사용 흐름: 앱 열기 → Health 연동 → 자동 추론 → 점수/차트/타임라인 확인
분석 이벤트: app_open, inference_run, chart_viewed, timeline_expanded, calibration_started

측정 이벤트

이벤트	정의	성공 기준
D7 리텐션	설치 후 7일째 앱 오픈	>= 20% (Refine)
일일 추론 실행	inference_run / DAU	>= 0.5회
차트 조회율	chart_viewed / inference_run	>= 50%
타임라인 확장율	timeline_expanded / DAU	>= 30%
캘리브레이션 시작율	calibration_started / WAU	>= 10%

성공/실패 기준

Go: D7 리텐션 >= 40% AND 일일 추론 >= 1.5회
Refine: D7 리텐션 20-39% OR 일일 추론 0.5-1.4회
Kill: D7 리텐션 < 20% AND 일일 추론 < 0.5회

대상

기존 FastingWorks 사용자 중 Apple Watch 보유자 50명
모집 채널: FastingWorks 인앱 배너 + r/QuantifiedSelf + r/Biohackers

실험 2: 대사 웰니스 고관여 사용자 세그먼트 관심도

가설

식후 반응/수면/활동 추적 루틴을 가진 사용자가 일반 사용자 대비 리텐션이 높다.

최소 구현

온보딩에 "건강 루틴 추적 의향" 질문 추가 (선택)
고관여 웰니스 코호트 코딩(예: 주 2회 이상 식후 반응 기록/앱 확인 예정)
기존 GlucoseWorks 기능 동일 (추가 개발 없음)

측정 이벤트

이벤트	정의	성공 기준
고관여 코호트 비율	wellness_cohort_yes / total_onboarded	`>= 30%` AND `고관여 코호트 >= 45`
코호트 D7 리텐션	고관여 코호트의 D7 리텐션	>= 일반 코호트 +10pp
코호트 추론 빈도	고관여 코호트의 일일 추론 실행	>= 일반 코호트 × 1.3
WTP 설문 응답	고관여 코호트의 "$5/월 지불 의사" 비율	>= 25%
최소 표본 충족 여부	전체 / 고관여군 수	전체 >= 460 OR 고관여 >= 130

성공/실패 기준

Go: 최소 표본 충족 시, 고관여 코호트 D7 리텐션이 일반 대비 +10pp 이상 AND WTP >= 25%
Refine: 최소 표본 충족 시, 리텐션 차이 +5-9pp OR WTP 15-24%
Kill: 리텐션 차이 < 5pp AND WTP < 15%

최소 표본 미충족 상태에서는 Go/Refine/Kill 판정을 내리지 않고 추가 모집 후 재측정합니다.

대상

실험 1과 동일 집단에서 고관여 코호트 추출
추가 모집: r/QuantifiedSelf, r/Health, r/IntermittentFasting, 타깃 웰니스 커뮤니티

실험 3: 캘리브레이션 정확도 파일럿

가설

GlucoseWorks의 캘리브레이션 시스템(3+ 실측 포인트)이 비캘리브레이션 대비 사용자 체감 정확도를 의미 있게 향상시킨다.

최소 구현

사용자에게 CGM(Stelo/Lingo) 또는 finger prick 미터 제공 (지원비 보조)
14일간 최소 10회 혈당 실측값 입력 요청
캘리브레이션 전/후 추론 점수 vs 실측값 상관관계 비교
사용자 만족도 설문 (1-10 체감 정확도)

측정 이벤트

이벤트	정의	성공 기준
캘리브레이션 완료율	calibration_active / enrolled	>= 60%
사전 상관 계수	캘리브레이션 전 추론 vs 실측 Pearson r	baseline 측정
사후 상관 계수	캘리브레이션 후 추론 vs 실측 Pearson r	>= 0.40
체감 정확도 향상	사후 설문 평균 - 사전 설문 평균	>= +2.0 (10점)
MARD (참고)	Mean Absolute Relative Difference	기록 (기준 없음)

성공/실패 기준

Go: 사후 r >= 0.40 AND 체감 정확도 +2.0 이상
Refine: 사후 r 0.25-0.39 OR 체감 정확도 +1.0-1.9
Kill: 사후 r < 0.25 AND 체감 정확도 < +1.0

대상

25명 × 14일 (Apple Watch 보유, CGM/finger prick 사용 가능)
모집 채널: r/QuantifiedSelf, biohacker 커뮤니티, Tab0 기존 사용자

실험 우선순위

순위	실험	이유
1	실험 1	가장 빠르게 실행 가능. UX 리텐션이 모든 후속 결정의 전제.
2	실험 2	실험 1과 병행 가능 (온보딩 질문 1개 추가).
3	실험 3	CGM 하드웨어 조달 필요. 실험 1 결과가 Kill이면 불필요.

타임라인

Week 1-2: 실험 1+2 준비 (TestFlight 배포, 분석 이벤트 구현)
Week 3:   모집 시작
Week 4:   실험 1+2 데이터 수집 (7일)
Week 5:   실험 1+2 결과 분석 + Go/Refine/Kill 1차 판단
Week 5-6: 실험 3 참가자 모집 + CGM 배송
Week 7-8: 실험 3 데이터 수집 (14일)
Week 9:   전체 결과 종합 + 최종 Go/Refine/Kill 판단