Experiment Plan — GlucoseWorks
실험 설계 원칙
이전 리서치(2026-02-09)의 "Refine" 결론에서 Go 전환을 위해 검증해야 할 3대 가설을 7일 실험으로 설계합니다.
P2 대응: 표본력/검정 기준
실험2는 일반군 대비 고관여 코호트 D7 리텐션 +10pp가 핵심 판정이므로, 통계적으로 의미 있는 비교를 위해 사전 표본 설계를 둡니다.
가정:
- 기준선 리텐션
p1 = 0.20 - 목표 리텐션
p2 = 0.30 - 유의수준
α = 0.05, 검정력power = 0.80
필요 표본 근사식:
n_per_group ≈ ((Z(1-α/2)*√(2*p̄*(1-p̄)) + Z*(power)√(p1*(1-p1)+p2*(1-p2)))^2) / (p2-p1)^2
위 가정에서 n_per_group ≈ 230 (총 460명, 고관여군 약 138명) 수준이 필요합니다.
운영상 최소 보완 규칙:
- 1차 탐색 기준: 최소
전체 150명+고관여 45명에서 방향성만 판단 - 판단 반영 기준: 95% 신뢰구간 기반으로 통계 판정을 하려면
전체 460명또는고관여 코호트 130명이상 확보 필요 - 미달 시: 실험은 재실시(추가 모집)로 전환
실험 1: 소비자 UX 리텐션 검증
가설
GlucoseWorks의 소비자 UI(Glucose Health Score Card + Post-Meal Timeline + Chart)가 7일 리텐션 20% 이상을 달성할 수 있다.
최소 구현
- GlucoseWorks 앱을 TestFlight 배포
- Apple Health 연동 온보딩 플로우 완성
- 기본 사용 흐름: 앱 열기 → Health 연동 → 자동 추론 → 점수/차트/타임라인 확인
- 분석 이벤트: app_open, inference_run, chart_viewed, timeline_expanded, calibration_started
측정 이벤트
| 이벤트 | 정의 | 성공 기준 |
|---|---|---|
| D7 리텐션 | 설치 후 7일째 앱 오픈 | >= 20% (Refine) |
| 일일 추론 실행 | inference_run / DAU | >= 0.5회 |
| 차트 조회율 | chart_viewed / inference_run | >= 50% |
| 타임라인 확장율 | timeline_expanded / DAU | >= 30% |
| 캘리브레이션 시작율 | calibration_started / WAU | >= 10% |
성공/실패 기준
- Go: D7 리텐션 >= 40% AND 일일 추론 >= 1.5회
- Refine: D7 리텐션 20-39% OR 일일 추론 0.5-1.4회
- Kill: D7 리텐션 < 20% AND 일일 추론 < 0.5회
대상
- 기존 FastingWorks 사용자 중 Apple Watch 보유자 50명
- 모집 채널: FastingWorks 인앱 배너 + r/QuantifiedSelf + r/Biohackers
실험 2: 대사 웰니스 고관여 사용자 세그먼트 관심도
가설
식후 반응/수면/활동 추적 루틴을 가진 사용자가 일반 사용자 대비 리텐션이 높다.
최소 구현
- 온보딩에 "건강 루틴 추적 의향" 질문 추가 (선택)
- 고관여 웰니스 코호트 코딩(예: 주 2회 이상 식후 반응 기록/앱 확인 예정)
- 기존 GlucoseWorks 기능 동일 (추가 개발 없음)
측정 이벤트
| 이벤트 | 정의 | 성공 기준 |
|---|---|---|
| 고관여 코호트 비율 | wellness_cohort_yes / total_onboarded | >= 30% AND 고관여 코호트 >= 45 |
| 코호트 D7 리텐션 | 고관여 코호트의 D7 리텐션 | >= 일반 코호트 +10pp |
| 코호트 추론 빈도 | 고관여 코호트의 일일 추론 실행 | >= 일반 코호트 × 1.3 |
| WTP 설문 응답 | 고관여 코호트의 "$5/월 지불 의사" 비율 | >= 25% |
| 최소 표본 충족 여부 | 전체 / 고관여군 수 | 전체 >= 460 OR 고관여 >= 130 |
성공/실패 기준
- Go: 최소 표본 충족 시, 고관여 코호트 D7 리텐션이 일반 대비 +10pp 이상 AND WTP >= 25%
- Refine: 최소 표본 충족 시, 리텐션 차이 +5-9pp OR WTP 15-24%
- Kill: 리텐션 차이 < 5pp AND WTP < 15%
최소 표본 미충족 상태에서는 Go/Refine/Kill 판정을 내리지 않고 추가 모집 후 재측정합니다.
대상
- 실험 1과 동일 집단에서 고관여 코호트 추출
- 추가 모집: r/QuantifiedSelf, r/Health, r/IntermittentFasting, 타깃 웰니스 커뮤니티
실험 3: 캘리브레이션 정확도 파일럿
가설
GlucoseWorks의 캘리브레이션 시스템(3+ 실측 포인트)이 비캘리브레이션 대비 사용자 체감 정확도를 의미 있게 향상시킨다.
최소 구현
- 사용자에게 CGM(Stelo/Lingo) 또는 finger prick 미터 제공 (지원비 보조)
- 14일간 최소 10회 혈당 실측값 입력 요청
- 캘리브레이션 전/후 추론 점수 vs 실측값 상관관계 비교
- 사용자 만족도 설문 (1-10 체감 정확도)
측정 이벤트
| 이벤트 | 정의 | 성공 기준 |
|---|---|---|
| 캘리브레이션 완료율 | calibration_active / enrolled | >= 60% |
| 사전 상관 계수 | 캘리브레이션 전 추론 vs 실측 Pearson r | baseline 측정 |
| 사후 상관 계수 | 캘리브레이션 후 추론 vs 실측 Pearson r | >= 0.40 |
| 체감 정확도 향상 | 사후 설문 평균 - 사전 설문 평균 | >= +2.0 (10점) |
| MARD (참고) | Mean Absolute Relative Difference | 기록 (기준 없음) |
성공/실패 기준
- Go: 사후 r >= 0.40 AND 체감 정확도 +2.0 이상
- Refine: 사후 r 0.25-0.39 OR 체감 정확도 +1.0-1.9
- Kill: 사후 r < 0.25 AND 체감 정확도 < +1.0
대상
- 25명 × 14일 (Apple Watch 보유, CGM/finger prick 사용 가능)
- 모집 채널: r/QuantifiedSelf, biohacker 커뮤니티, Tab0 기존 사용자
실험 우선순위
| 순위 | 실험 | 이유 |
|---|---|---|
| 1 | 실험 1 | 가장 빠르게 실행 가능. UX 리텐션이 모든 후속 결정의 전제. |
| 2 | 실험 2 | 실험 1과 병행 가능 (온보딩 질문 1개 추가). |
| 3 | 실험 3 | CGM 하드웨어 조달 필요. 실험 1 결과가 Kill이면 불필요. |
타임라인
Week 1-2: 실험 1+2 준비 (TestFlight 배포, 분석 이벤트 구현)
Week 3: 모집 시작
Week 4: 실험 1+2 데이터 수집 (7일)
Week 5: 실험 1+2 결과 분석 + Go/Refine/Kill 1차 판단
Week 5-6: 실험 3 참가자 모집 + CGM 배송
Week 7-8: 실험 3 데이터 수집 (14일)
Week 9: 전체 결과 종합 + 최종 Go/Refine/Kill 판단