파일 목록으로

Experiment Plan — GlucoseWorks

실험 설계 원칙

이전 리서치(2026-02-09)의 "Refine" 결론에서 Go 전환을 위해 검증해야 할 3대 가설을 7일 실험으로 설계합니다.

P2 대응: 표본력/검정 기준

실험2는 일반군 대비 고관여 코호트 D7 리텐션 +10pp가 핵심 판정이므로, 통계적으로 의미 있는 비교를 위해 사전 표본 설계를 둡니다.

가정:

  • 기준선 리텐션 p1 = 0.20
  • 목표 리텐션 p2 = 0.30
  • 유의수준 α = 0.05, 검정력 power = 0.80

필요 표본 근사식:

n_per_group ≈ ((Z(1-α/2)*√(2*p̄*(1-p̄)) + Z*(power)√(p1*(1-p1)+p2*(1-p2)))^2) / (p2-p1)^2

위 가정에서 n_per_group ≈ 230 (총 460명, 고관여군 약 138명) 수준이 필요합니다.

운영상 최소 보완 규칙:

  • 1차 탐색 기준: 최소 전체 150명 + 고관여 45명에서 방향성만 판단
  • 판단 반영 기준: 95% 신뢰구간 기반으로 통계 판정을 하려면 전체 460명 또는 고관여 코호트 130명 이상 확보 필요
  • 미달 시: 실험은 재실시(추가 모집)로 전환

실험 1: 소비자 UX 리텐션 검증

가설

GlucoseWorks의 소비자 UI(Glucose Health Score Card + Post-Meal Timeline + Chart)가 7일 리텐션 20% 이상을 달성할 수 있다.

최소 구현

  • GlucoseWorks 앱을 TestFlight 배포
  • Apple Health 연동 온보딩 플로우 완성
  • 기본 사용 흐름: 앱 열기 → Health 연동 → 자동 추론 → 점수/차트/타임라인 확인
  • 분석 이벤트: app_open, inference_run, chart_viewed, timeline_expanded, calibration_started

측정 이벤트

이벤트정의성공 기준
D7 리텐션설치 후 7일째 앱 오픈>= 20% (Refine)
일일 추론 실행inference_run / DAU>= 0.5회
차트 조회율chart_viewed / inference_run>= 50%
타임라인 확장율timeline_expanded / DAU>= 30%
캘리브레이션 시작율calibration_started / WAU>= 10%

성공/실패 기준

  • Go: D7 리텐션 >= 40% AND 일일 추론 >= 1.5회
  • Refine: D7 리텐션 20-39% OR 일일 추론 0.5-1.4회
  • Kill: D7 리텐션 < 20% AND 일일 추론 < 0.5회

대상

  • 기존 FastingWorks 사용자 중 Apple Watch 보유자 50명
  • 모집 채널: FastingWorks 인앱 배너 + r/QuantifiedSelf + r/Biohackers

실험 2: 대사 웰니스 고관여 사용자 세그먼트 관심도

가설

식후 반응/수면/활동 추적 루틴을 가진 사용자가 일반 사용자 대비 리텐션이 높다.

최소 구현

  • 온보딩에 "건강 루틴 추적 의향" 질문 추가 (선택)
  • 고관여 웰니스 코호트 코딩(예: 주 2회 이상 식후 반응 기록/앱 확인 예정)
  • 기존 GlucoseWorks 기능 동일 (추가 개발 없음)

측정 이벤트

이벤트정의성공 기준
고관여 코호트 비율wellness_cohort_yes / total_onboarded>= 30% AND 고관여 코호트 >= 45
코호트 D7 리텐션고관여 코호트의 D7 리텐션>= 일반 코호트 +10pp
코호트 추론 빈도고관여 코호트의 일일 추론 실행>= 일반 코호트 × 1.3
WTP 설문 응답고관여 코호트의 "$5/월 지불 의사" 비율>= 25%
최소 표본 충족 여부전체 / 고관여군 수전체 >= 460 OR 고관여 >= 130

성공/실패 기준

  • Go: 최소 표본 충족 시, 고관여 코호트 D7 리텐션이 일반 대비 +10pp 이상 AND WTP >= 25%
  • Refine: 최소 표본 충족 시, 리텐션 차이 +5-9pp OR WTP 15-24%
  • Kill: 리텐션 차이 < 5pp AND WTP < 15%

최소 표본 미충족 상태에서는 Go/Refine/Kill 판정을 내리지 않고 추가 모집 후 재측정합니다.

대상

  • 실험 1과 동일 집단에서 고관여 코호트 추출
  • 추가 모집: r/QuantifiedSelf, r/Health, r/IntermittentFasting, 타깃 웰니스 커뮤니티

실험 3: 캘리브레이션 정확도 파일럿

가설

GlucoseWorks의 캘리브레이션 시스템(3+ 실측 포인트)이 비캘리브레이션 대비 사용자 체감 정확도를 의미 있게 향상시킨다.

최소 구현

  • 사용자에게 CGM(Stelo/Lingo) 또는 finger prick 미터 제공 (지원비 보조)
  • 14일간 최소 10회 혈당 실측값 입력 요청
  • 캘리브레이션 전/후 추론 점수 vs 실측값 상관관계 비교
  • 사용자 만족도 설문 (1-10 체감 정확도)

측정 이벤트

이벤트정의성공 기준
캘리브레이션 완료율calibration_active / enrolled>= 60%
사전 상관 계수캘리브레이션 전 추론 vs 실측 Pearson rbaseline 측정
사후 상관 계수캘리브레이션 후 추론 vs 실측 Pearson r>= 0.40
체감 정확도 향상사후 설문 평균 - 사전 설문 평균>= +2.0 (10점)
MARD (참고)Mean Absolute Relative Difference기록 (기준 없음)

성공/실패 기준

  • Go: 사후 r >= 0.40 AND 체감 정확도 +2.0 이상
  • Refine: 사후 r 0.25-0.39 OR 체감 정확도 +1.0-1.9
  • Kill: 사후 r < 0.25 AND 체감 정확도 < +1.0

대상

  • 25명 × 14일 (Apple Watch 보유, CGM/finger prick 사용 가능)
  • 모집 채널: r/QuantifiedSelf, biohacker 커뮤니티, Tab0 기존 사용자

실험 우선순위

순위실험이유
1실험 1가장 빠르게 실행 가능. UX 리텐션이 모든 후속 결정의 전제.
2실험 2실험 1과 병행 가능 (온보딩 질문 1개 추가).
3실험 3CGM 하드웨어 조달 필요. 실험 1 결과가 Kill이면 불필요.

타임라인

Week 1-2: 실험 1+2 준비 (TestFlight 배포, 분석 이벤트 구현)
Week 3:   모집 시작
Week 4:   실험 1+2 데이터 수집 (7일)
Week 5:   실험 1+2 결과 분석 + Go/Refine/Kill 1차 판단
Week 5-6: 실험 3 참가자 모집 + CGM 배송
Week 7-8: 실험 3 데이터 수집 (14일)
Week 9:   전체 결과 종합 + 최종 Go/Refine/Kill 판단

0 / 69