Experiment Plan — GlucoseWorks
실험 설계 원칙
3개 핵심 가설을 순차적으로 검증합니다. 실험 1+2는 병행, 실험 3은 실험 1 통과 후 진행.
실험 1: D7 리텐션 + 식이 기록 코호트 비교
가설
GlucoseWorks의 "패시브 추론 + 선택적 식이 기록 + 피드백 루프" 구조가 D7 리텐션 40% 이상을 달성하며, 식이 기록자가 비기록자 대비 유의미하게 높은 리텐션을 보인다.
최소 구현
- TestFlight 배포 (현재 구현 상태 그대로)
- "Without → With" 온보딩: Day 1-3 패시브 only → Day 4 식사 기록 유도 넛지
- 분석 이벤트: app_open, inference_run, meal_logged, chart_viewed, timeline_expanded, calibration_started
- 식이 기록 유무에 따른 자동 코호트 분류
측정 이벤트
| 이벤트 | 정의 | 성공 기준 |
|---|---|---|
| 전체 D7 리텐션 | 설치 후 7일째 앱 오픈 | ≥ 40% (Go) |
| 식이 기록자 D7 리텐션 | 1회 이상 식사 기록한 사용자의 D7 | ≥ 50% (Go) |
| 비기록자 D7 리텐션 | 식사 기록 0회 사용자의 D7 | baseline 측정 |
| 일일 추론 실행 | inference_run / DAU | ≥ 1.5회 |
| 식이 기록 채택률 | meal_logged_users / total_onboarded | ≥ 40% |
| 일일 식이 기록 | meal_logged / DAU (기록자 한정) | ≥ 1.5회 |
성공/실패 기준
- Go: 전체 D7 ≥ 40% AND 식이 기록자 D7 ≥ 50% AND 추론 ≥ 1.5회/일
- Refine: 전체 D7 20-39% OR 식이 기록자 D7 30-49%
- Kill: 전체 D7 < 20% AND 식이 기록자 D7 < 30%
대상 & 모집
- 50-150명 (FastingWorks 사용자 + r/QuantifiedSelf + r/Biohackers)
- Apple Watch 필수, iOS 17+
예상 공수
- TestFlight 배포: 1일 (이미 구현 완료)
- 분석 이벤트 구현: 2-3일
- Without→With 온보딩 넛지: 1-2일
- 모집: 3-5일
- 데이터 수집: 7일
- 총: 2-3주
실험 2: 고관여 세그먼트 리텐션
가설
식사 기록 빈도 ≥ 2회/일인 고관여 사용자가 일반 사용자 대비 D7 리텐션 +10pp 이상이며, WTP(지불 의사) ≥ 25%이다.
최소 구현
- 온보딩에 "대사 건강 루틴 추적 의향" 질문 1개 추가 (선택)
- 식이 기록 빈도 기반 자동 코호트 코딩
- D7에 WTP 설문 1문항: "$5/월 지불 의사"
P2 대응: 표본력/검정 기준
가정:
- 기준선 리텐션
p1 = 0.30(실험 1의 비기록자 예상) - 목표 리텐션
p2 = 0.40 - 유의수준
α = 0.05, 검정력power = 0.80
필요 표본: n_per_group ≈ 350 (총 700명)
운영상 최소 보완 규칙:
- 1차 탐색 기준: 최소
전체 150명+고관여 45명에서 방향성만 판단 - 판단 반영 기준: 95% 신뢰구간 기반 판정은
전체 700명또는고관여 210명이상 확보 필요
측정 이벤트
| 이벤트 | 정의 | 성공 기준 |
|---|---|---|
| 고관여 코호트 비율 | 식이 기록 ≥ 2회/일 사용자 / 전체 | ≥ 30% AND 고관여 ≥ 45명 |
| 코호트 D7 리텐션 | 고관여 코호트의 D7 | ≥ 일반 코호트 +10pp |
| 코호트 추론 빈도 | 고관여 코호트의 일일 추론 | ≥ 일반 코호트 × 1.3 |
| WTP 설문 응답 | 고관여 코호트의 "$5/월 지불 의사" 비율 | ≥ 25% |
성공/실패 기준
- Go: 최소 표본 충족 시, 고관여 D7 ≥ 일반 +10pp AND WTP ≥ 25%
- Refine: 리텐션 차이 +5-9pp OR WTP 15-24%
- Kill: 리텐션 차이 < 5pp AND WTP < 15%
대상
- 실험 1과 동일 집단에서 코호트 추출
- 최소 표본 미달 시 추가 모집
예상 공수
- 온보딩 질문 추가: 0.5일
- WTP 설문 구현: 0.5일
- 실험 1과 병행이므로 추가 일정 없음
실험 3: 캘리브레이션 + 식이 기록 정확도 파일럿
가설
GlucoseWorks의 캘리브레이션 + 식이 기록이 비캘리브레이션/비기록 대비 추론-실측 상관을 유의미하게 향상시킨다.
최소 구현
- 참가자에게 OTC CGM(Stelo/Lingo) 또는 finger-prick 미터 제공 (지원비 보조)
- 14일간 최소 10회 혈당 실측값 입력 요청
- 4개 코호트 자동 분류:
- 캘리브레이션 O + 식이 기록 O
- 캘리브레이션 O + 식이 기록 X
- 캘리브레이션 X + 식이 기록 O
- 캘리브레이션 X + 식이 기록 X
측정 이벤트
| 이벤트 | 정의 | 성공 기준 |
|---|---|---|
| 캘리브레이션 완료율 | calibration_active / enrolled | ≥ 60% |
| 식이 기록 준수율 | 식이 기록 ≥ 2회/일 달성 비율 | ≥ 50% |
| 코호트 1 상관 (Cal+Diet) | 추론 vs 실측 Pearson r | ≥ 0.40 (Go) |
| 코호트 2 상관 (Cal only) | 추론 vs 실측 Pearson r | baseline 측정 |
| 코호트 3 상관 (Diet only) | 추론 vs 실측 Pearson r | baseline 측정 |
| 코호트 4 상관 (Neither) | 추론 vs 실측 Pearson r | baseline 측정 |
| 식이 기록 정확도 향상 폭 | 코호트 1 r - 코호트 2 r | ≥ +0.10 |
| 체감 정확도 향상 | 사후 설문 - 사전 설문 (1-10) | ≥ +2.0 |
성공/실패 기준
- Go: 코호트 1 r ≥ 0.40 AND 체감 정확도 +2.0 AND 식이 기록 향상 폭 ≥ +0.10
- Refine: 코호트 1 r 0.25-0.39 OR 체감 정확도 +1.0-1.9
- Kill: 코호트 1 r < 0.25 AND 체감 < +1.0 AND 식이 기록이 정확도 향상에 기여 없음
대상
- 25명 × 14일 (Apple Watch + OTC CGM/finger-prick 사용 가능)
- 모집: r/QuantifiedSelf, 바이오해커 커뮤니티, Tab0 기존 사용자
- CGM 비용 보조: Stelo $84/센서 × 1-2개 = $84-168/인
예상 공수
- CGM 배송/조달: 1주
- 참가자 모집: 1주
- 데이터 수집: 14일
- 분석: 3-5일
- 총: 4-5주 (실험 1 이후 순차)
실험 우선순위
| 순위 | 실험 | 이유 |
|---|---|---|
| 1 | 실험 1 | 가장 빠르게 실행 가능. UX 리텐션 + 식이 기록 효과가 전제. |
| 2 | 실험 2 | 실험 1과 병행 (온보딩 질문 + WTP 설문 추가만). |
| 3 | 실험 3 | CGM 하드웨어 조달 필요. 실험 1 Kill이면 불필요. |
전체 타임라인
Week 1-2: 실험 1+2 준비 (분석 이벤트, Without→With 온보딩, WTP 설문)
Week 3: 모집 시작 (FastingWorks + Reddit + HN)
Week 4: 실험 1+2 데이터 수집 (7일)
Week 5: 실험 1+2 결과 분석 + 1차 Go/Refine/Kill
Week 5-6: 실험 3 참가자 모집 + CGM 배송
Week 7-8: 실험 3 데이터 수집 (14일)
Week 9: 전체 결과 종합 + 최종 Go/Refine/Kill