웨어러블 수동 선별의 7단계 청사진
Apple Watch 고혈압 알림과 Google WEAR-ME 인슐린 저항성 모델은 표면적으로 다른 두 연구이지만, 같은 7단계 청사진을 따른다. 이 청사진이 2024–2026년에 굳어진 표준 레시피이며, 앞으로 출시될 거의 모든 "수동 선별 알림" 기능이 이 흐름을 따라갈 가능성이 높다.
두 사례의 구조적 동일성
두 연구를 옆에 놓고 보면 입력 신호와 학습 데이터 규모와 대상 질환만 다를 뿐, 알고리즘 구조와 성능 프로파일과 사용자 경험 디자인이 사실상 동일한 청사진에서 출발한다.
| 단계 | Apple Hypertension Notification (2025) | Google WEAR-ME Insulin Resistance (2026) |
|---|---|---|
| 1. 대규모 unlabeled SSL pretraining | Apple Heart and Movement Study, 약 14만 명 PPG로 self-supervised PPG Feature Extractor | MAE를 1,165명 코호트의 표준화된 다중 모달 벡터에 적용 |
| 2. 작은 supervised head | Linear projection → Blood Pressure 모델 → Hypertension 모델 | XGBoost gblinear on MAE embedding |
| 3. 장기 temporal aggregation | 30일 평가 윈도우, 약 2시간 간격 60초 PPG segment 평균 | 7일 daily aggregate (mean/std/median) |
| 4. Conservative threshold (Spec >> Sens) | Spec 92.3% / Sens 41.2% | Spec 84% / Sens 76% |
| 5. "Notification" framing | 진단이 아닌 가능성 알림 | screening 도구이며 진단 권고는 회피 |
| 6. Confirm pathway routing | 가정용 BP cuff로 30일 측정 권고 | Fasting glucose / HbA1c lab 권고 |
| 7. Demographic stratification 분석 | 인종·성별·BMI subgroup ROC | 인종·BMI subgroup R² |
이 7단계는 우연이 아니다. 2024년 Apple 수면 무호흡 알림과 2025년 Apple 고혈압 알림과 2026년 Google 인슐린 저항성 모델까지 세 사례가 동일한 흐름을 따랐고, 앞으로 나올 만성 질환 수동 선별 기능은 이 청사진에서 크게 벗어나기 어렵다.
단계별로 왜 이렇게 설계되는가
1단계: 대규모 unlabeled SSL pretraining
수동 선별의 첫 단계는 라벨 없는 대규모 웨어러블 데이터로부터 신호의 일반 표현을 학습하는 것이다. Apple은 자체 연구 플랫폼인 Apple Heart and Movement Study를 통해 약 14만 명, 3년치 PPG와 ECG 데이터를 모았고, 이를 self-supervised contrastive learning으로 사전 학습하여 고혈압을 포함한 여러 다운스트림 작업에 재사용한다. Google은 SensorLM과 같은 큰 모델을 통해 동일한 작업을 Fitbit 데이터에서 수행한다.
이 단계가 중요한 이유는 두 가지이다. 하나는 라벨 데이터가 본질적으로 비싸기 때문이다. HOMA-IR이나 OMRON cuff 같은 기준 측정은 한 사람당 수만 원에서 수십만 원의 비용이 들어가는 반면, 라벨 없는 PPG와 가속도계 데이터는 수억 명의 손목에서 무료로 흘러나온다. 다른 하나는 한 번 잘 학습된 representation이 여러 질환에 재사용되어 한계 비용을 분산할 수 있기 때문이다.
2단계: 작은 supervised head
거대한 사전 학습 backbone 위에 올라가는 supervised head는 의외로 단순하다. Apple은 선형 모델로 PPG feature에서 hypertension risk를 점수화하고, Google은 XGBoost gblinear로 MAE embedding에서 HOMA-IR을 회귀한다. 표현이 충분히 풍부하다면 매우 작은 라벨 데이터셋만으로 임상 수준 성능에 도달할 수 있다는 가정이 깔려 있다.
이 디자인은 실용적으로 두 가지 이점이 있다. 첫째, 새로운 질환에 대한 head 추가가 빠르고 비용이 작다. 동일한 PPG backbone에서 prediabetes head, MASLD head, 갑상선 head 등을 병렬로 운용할 수 있다. 둘째, 해석 가능성과 디버깅이 쉬워, 규제 제출 시 알고리즘의 동작을 설명하는 부담이 줄어든다.
3단계: 장기 temporal aggregation
만성 질환은 본질적으로 만성적이고 평균적인 metabolic state이다. 분 단위 PPG 형태학에서 미세한 morphology를 잡기보다, 충분히 긴 윈도우에서 안정적인 평균과 변동성을 잡는 것이 정보량이 훨씬 크다. Apple은 30일을 채택했고 Google은 7일이 14일과 동등하다는 결과 위에서 7일을 채택했다. 두 윈도우 모두 사용자가 처음 디바이스를 차고 나서 수 주 안에 첫 알림을 받을 수 있도록 하면서도, 단발적 잡음은 평균이 흡수하도록 설계되었다.
또한 평균값만이 아니라 표준편차를 함께 쓰는 것이 핵심이다. 같은 RHR 평균이라도 수면이 일관된 사람과 들쭉날쭉한 사람의 metabolic state는 다르며, 표준편차가 그 차이를 잡는다. Google 논문이 신호당 mean·std·median 세 가지 통계량을 모두 사용한 이유가 여기에 있다.
4단계: Conservative threshold (Spec >> Sens)
두 사례 모두 특이도를 매우 높게, 민감도는 그보다 낮게 설정한다. Apple HTN은 전체 특이도 92.3%인 반면 전체 민감도는 41.2%이고, Google WEAR-ME는 특이도 84%·민감도 76%이다. 이런 비대칭은 사용자 경험과 규제 양쪽에서 의도된 선택이다.
거짓 양성, 즉 정상인에게 잘못 알림을 보내는 것은 사용자 신뢰를 즉시 무너뜨리고 의료 시스템에 불필요한 부하를 주는 반면, 거짓 음성은 다음 평가 윈도우에서 다시 잡힐 수 있고 사용자 입장에서 알림이 없는 것은 자연스럽게 받아들여진다. 또한 규제 제출 시에도 거짓 양성이 적은 모델이 더 안전하다고 평가된다.
5단계: "Notification" framing
두 사례 모두 진단이라는 단어를 의도적으로 회피한다. Apple은 "고혈압 가능성"이라는 표현을 쓰고, Google은 "screening" 또는 "estimation"이라고 부른다. 이는 FDA와 식약처를 포함한 규제 기관이 진단 클레임에는 훨씬 엄격한 기준을 요구하는 반면, 알림이나 선별 클레임에는 보다 관대한 De Novo 또는 510(k) 경로를 허용하기 때문이다. 2025년 1월 FDA가 디지털 헬스 가이던스를 deregulatory 방향으로 업데이트하면서 이 경향은 더 강해졌다.
이 framing은 기능 자체의 설계에도 영향을 준다. 알림 빈도를 의도적으로 낮추고, 알림 화면에 반드시 의사 상담 권고를 동반하며, 알고리즘이 모든 환자를 잡는 것이 아님을 온보딩에서 사전 고지한다.
6단계: Confirm pathway routing
알림 자체로 끝나지 않고 사용자를 다음 행동으로 routing 하는 것이 핵심 디자인이다. Apple은 알림을 받은 사용자에게 가정용 BP cuff와 함께 30일간 혈압 일지를 기록하도록 안내하며, 이 일지가 의사 진료 시 객관적 근거가 된다. Google의 인슐린 저항성 모델도 출시되면 자연스럽게 fasting glucose 또는 HbA1c 검사실 방문으로 routing 될 것이다.
이 routing 단계는 wearable이 medical device 생태계와 연결되는 접점이며, 동시에 3rd party 개발자가 가장 큰 기회를 발견할 수 있는 지점이기도 하다. Apple과 Google이 직접 만들지 않는 영역, 예를 들어 알림 후 클리닉 예약, 검사 결과 트래킹, 후속 lifestyle 개입 같은 것들이 여기에 위치한다.
7단계: Demographic stratification 분석
두 사례 모두 인종·성별·BMI 등 인구통계학적 하위 그룹에서의 성능을 별도 분석하여 보고한다. Apple은 covariate-adjusted ROC 비를 제시하고, Google은 BMI 30 이상에서 민감도 93%·특이도 95%를 강조한다. 이는 건강 형평성 측면에서 점점 강해지는 규제 요구이며, 동시에 product positioning 도구이기도 하다. 어떤 그룹에서 가장 잘 작동하는지 알면, 그 그룹을 일차 타깃으로 마케팅할 수 있다.
이 청사진이 표준이 된 세 가지 이유
첫째, 데이터 경제학이 강제한다. Apple Heart and Movement Study나 Google Health Studies 같은 플랫폼이 없이는 14만 명 규모의 PPG 데이터를 모을 수 없고, 그런 데이터 없이는 self-supervised pretraining의 이점을 누릴 수 없다. 따라서 거대 플랫폼 보유자만 1단계와 2단계의 분리된 구조를 운영할 수 있고, 다른 모든 플레이어는 작은 supervised 모델로만 경쟁해야 한다. 이것이 청사진을 굳히는 가장 큰 힘이다.
둘째, 규제 경로가 강제한다. FDA De Novo와 510(k)는 "이전에 인허가 받은 유사 기능과 비교"하는 방식으로 진행된다. 한 번 Apple HTN이 인허가를 받으면, 후속 출시되는 wearable 알림 기능들은 같은 framing과 같은 성능 프로파일을 유지하는 것이 인허가에 유리하다. 식약처도 FDA 가이드라인을 참조하므로 한국 시장도 동일한 흐름을 탄다.
셋째, 사용자 경험의 학습이 강제한다. Apple Watch가 ECG와 AFib 알림으로 5년 넘게 학습시킨 사용자 멘탈 모델은 "내 시계가 가끔 걱정되는 패턴을 잡으면 알려주고, 나는 의사에게 가서 확인한다" 라는 흐름이다. 이 멘탈 모델을 깨고 다른 흐름을 새로 만드는 것은 너무 비싸기 때문에, 후속 기능들이 같은 멘탈 모델을 재사용한다.
새 수동 선별 기능을 설계할 때의 가이드
위 청사진을 우리 제품 설계에 적용하면 다음 결정들이 자동으로 따라온다.
먼저 backbone과 head를 분리하라. 14만 명의 PPG SSL backbone을 우리가 직접 학습할 수는 없으므로, Apple과 Google이 backbone을 만들고 우리는 그 위의 작은 supervised head를 노린다. 우리에게 가장 합리적인 backbone은 HealthKit이 노출하는 derived feature(RHR, HRV SDNN, 수면 단계, 걸음 수)이며, 이것들 자체가 이미 Apple의 backbone에서 추출된 representation이다.
다음으로 7일 윈도우와 평균·표준편차 통계량을 기본 디자인으로 채택하라. Google이 이 조합으로 0.70 AUROC을 달성한 것을 우리가 처음부터 다른 설계로 시작할 이유가 없다. 14일이나 30일은 응답성을 떨어뜨리고, 1일이나 3일은 잡음에 약하다. 7일이 sweet spot이다.
세 번째로 Spec 우선 threshold를 채택하라. 신뢰 회복은 어렵고 한번 잃으면 회복 비용이 매우 크다. 우리 앱이 알림을 보내는 빈도를 처음부터 보수적으로 설정하라. Apple HTN처럼 30일에 한 번 정도면 충분하다.
네 번째로 진단 단어를 절대 쓰지 말라. "위험도", "참고 정보", "패턴 변화 감지" 같은 표현으로 일관되게 prompting 해야 한다. 한국 식약처 1·2등급 SaMD 가이드라인은 이 단어 선택에 매우 민감하다.
다섯 번째로 routing 경로를 처음부터 설계하라. 알림이 사용자에게 무엇을 하라고 시키는지가 알림 자체보다 중요하다. 가능하면 한국 건강검진 결과 입력 화면, 의사 상담 안내, 라이프스타일 개입 추천 등을 알림 직후 화면에 묶어 두라. 이 단계가 우리가 만들 수 있는 가장 큰 차별화 지점이다.
시사점 한 줄
이 7단계 청사진은 거대 플랫폼 보유자가 backbone을 차지하고, 3rd party는 head와 routing에서 경쟁하도록 만든다. 우리는 backbone에서 이길 수 없으므로, 6단계 routing 영역에 가장 큰 자원을 투입하는 것이 합리적이다.
참고 문서
- Insulin Resistance Prediction (WEAR-ME)
- Apple Watch 고혈압 알림 백서 (한국어)
- ML 기반 간접 시그널 패턴 인식
- 종합 문서: 웨어러블 파운데이션 모델 경쟁
- 종합 문서: 2026 트렌드 전망
업데이트 이력
- 2026-05-08: 초안 작성. Apple HTN과 Google WEAR-ME 두 사례를 7단계 청사진으로 정리.