수면 단계 정밀 분류
가속도계, PPG, 피부온도 등 웨어러블 센서 조합으로 PSG(EEG 기반) 없이 수면 단계를 4단계(Wake/Light/Deep/REM)로 분류하는 기술
개요
- 입력 시그널: 가속도계(체동), PPG(심박/HRV), 피부온도(distal skin temperature)
- 대체 대상: 수면다원검사(PSG) — EEG, EOG, EMG를 사용한 금본위 수면 단계 분류
- 현재 성숙도: 중-상 — 4단계 분류 정확도 약 76-80%, Cohen's kappa 0.55-0.66 수준. 상용 스마트워치/반지에 탑재되어 있으나 PSG 대비 개인 수준의 편차가 크고 임상 활용에는 제한적. 파운데이션 모델(SleepFM, SleepGPT) 등장으로 패러다임 전환 진행 중
주요 연구 및 논문
1. 스마트워치 센서 기반 수면 단계 분류 알고리즘 (2024)
- 출처: Sleep Medicine, ScienceDirect
- 핵심 내용: Samsung 스마트워치의 PPG와 가속도계 신호만을 사용하여 건강인 및 수면무호흡 환자 모두에서 수면 단계를 분류하는 RNN 기반 모델을 개발. 23개 입력 특성을 추출하여 30초 에폭 단위로 예측
- 방법론: RNN(순환 신경망), 1,522 야간 기록(이질적 집단, 다양한 Samsung 워치 버전), 23개 가속도계/PPG 특성
- 주요 결과: 건강인과 수면무호흡 환자 모두에서 경량/고속 수면 단계 분류 가능. 기기 내 실시간 예측에 최적화된 저연산 모델
- 의의: 대규모 이질적 집단(1,522명)에서 검증된 실용적 스마트워치 알고리즘. 수면무호흡 환자 포함이 임상 적용 가능성을 높임
2. 웨어러블 수면 단계 분류의 신뢰성 평가: 범위 리뷰 (2024)
- 출처: npj Digital Medicine, Nature
- 핵심 내용: 지난 10년간 35개 논문, 62개 웨어러블 구성을 분석한 범위 리뷰. 가속도계+PPG 데이터 조합이 실외 수면 단계 분류의 주류 트렌드로 부상. 가속도계 단독은 수면/각성 이진 분류에는 효과적이나 다단계 분류에는 한계
- 방법론: 범위 리뷰(scoping review), PRISMA-ScR 가이드라인, 2014-2024 문헌
- 주요 결과: 멀티 센서 기기(가속도계+PPG+온도 등)가 단일 센서 대비 우수. PPG 신호가 다단계 분류의 핵심 입력으로 확인
- 의의: 분야 전체의 기술 동향과 센서 조합별 성능 차이를 체계적으로 정리한 최신 리뷰
3. 6종 상용 스마트워치의 PSG 대비 수면 단계 분류 검증 (2025)
- 출처: Sleep Advances, PMC
- 핵심 내용: Fitbit Charge 5, Fitbit Sense, Withings Scanwatch, Garmin Vivosmart 4, Whoop 4.0, Apple Watch Series 8 등 6종의 상용 손목형 웨어러블을 PSG와 비교 검증
- 방법론: PSG 동시 측정, Cohen's kappa 및 에폭 단위 일치도 분석
- 주요 결과: Cohen's kappa 범위 0.21-0.53. Apple Watch Series 8이 가장 높은 일치도(kappa=0.53, moderate), Withings Scanwatch(0.22)와 Garmin Vivosmart 4(0.21)는 fair 수준
- 의의: 상용 기기 간 성능 격차가 크며, 최고 성능 기기도 moderate 일치도에 그침. 임상 의사결정에 활용하기에는 부족함을 실증
4. 피부 부착형 무선 웨어러블 기기와 수면 단계/장애 탐지 (Du et al., 2025)
- 출처: PNAS
- 핵심 내용: 심장 및 호흡 측정을 동기화하는 다중 모달 피부 부착형 기계음향 센서 개발. 호흡수, 심박수, HRV, 온도를 포함한 생체 신호를 연속 무선 모니터링하고, 해석 가능한 ML 모델(LMA-SleepNet)과 결합하여 수면 단계와 무호흡 이벤트를 탐지
- 방법론: 피부 부착형 기계음향 센서 + LMA-SleepNet(해석 가능 ML), 온도 포함 다중 모달
- 주요 결과: 수면 단계 구분과 무호흡 이벤트 탐지 모두에서 우수한 성능. 임상 및 가정 환경 모두에서 활용 가능
- 의의: 피부온도를 포함한 다중 모달 접근의 최전선. 해석 가능한 모델 설계로 임상 신뢰성 확보
5. IncepTransNet: 피부온도 기반 웨어러블 수면 단계 분류 모델 (2024)
- 출처: IEEE Xplore
- 핵심 내용: 환경 온도, 상대 습도, 4지점 피부온도를 측정하는 다중 모달 웨어러블 센서 시스템으로 고해상도 데이터 기반 수면 단계 분류 모델 구축. 피부온도를 주 입력으로 사용하는 드문 연구
- 방법론: Inception + Transformer 하이브리드 아키텍처(IncepTransNet), 피부온도 4지점 + 환경 센서
- 주요 결과: 피부온도 기반 분류의 실현 가능성을 입증
- 의의: PPG/가속도계 중심의 주류 접근과 차별화. 피부온도가 수면 단계 분류에 독립적 기여를 한다는 근거 제공
6. 연산 효율적 수면 단계 분류 알고리즘 (Kotzen et al., 2023)
- 출처: Scientific Reports, Nature
- 핵심 내용: 가속도계(체동)와 반사형 PPG 센서(IBI, 순간 심박수)를 사용하여 4단계 수면 분류(Wake/N1+N2/N3/REM)를 수행하는 연산 효율적 알고리즘. 기존 HRV 기반 접근법과 동등한 성능을 50배 빠른 실행 시간으로 달성
- 방법론: 경량 신경망, 가속도계+PPG 2채널 입력, 30초 에폭 분류
- 주요 결과: 중앙값 kappa 0.638, 정확도 77.8%. 기존 HRV 기반 모델 대비 50배 빠른 연산 속도
- 의의: 스마트워치 온디바이스 배포를 위한 연산 효율성 최적화의 중요성을 입증
7. Oura Ring Gen3의 수면 단계 분류 검증 (2024)
- 출처: Sleep Medicine, ScienceDirect
- 핵심 내용: Oura Ring Generation 3 + OSSA 2.0 알고리즘을 96명의 다야간 PSG 데이터(421,045 에폭)로 검증. 수면 시간, 입면 잠복기, 깊은 수면/얕은 수면 시간 등에서 PSG와 유의미한 차이 없음
- 방법론: 96명(건강한 일본 성인, 20-70세), 다야간 PSG 동시 측정, 421,045개 30초 에폭
- 주요 결과: 민감도 94.4%, 특이도 73.0-74.6%, 수면/각성 이진 분류 정확도 91.7-91.8%. 수면 단계별 정확도 75.5%(light)-90.6%(REM). 기기 간 신뢰도 94.8%
- 의의: 반지형 웨어러블의 가장 대규모 다야간 PSG 검증 연구. 건강인에서 높은 정확도 확인, 단 임상 환자군에서는 정확도 하락 가능성
8. SleepFM: 다중 모달 수면 파운데이션 모델 (Stanford, 2025)
- 출처: Nature Medicine
- 핵심 내용: 약 65,000명, 585,000시간 이상의 PSG 기록으로 훈련한 대조 학습 기반 다중 모달 파운데이션 모델. 한 밤의 수면 데이터로 130개 이상의 질환을 예측하며, 향후 웨어러블 데이터 통합을 계획
- 방법론: Contrastive learning 기반 파운데이션 모델, 다중 PSG 구성 수용, 5초 간격 시퀀스 학습
- 주요 결과: 전사망률 C-Index 0.84, 치매 0.85, 심근경색 0.81, 심부전 0.80, 만성 신장 질환 0.79, 뇌졸중 0.78
- 의의: 수면 데이터의 LLM 버전. 수면 단계 분류를 넘어 수면 신호에서 전신 건강 상태를 예측하는 패러다임 전환. 웨어러블 통합 시 가정용 건강 모니터링의 혁신 가능
9. SleepGPT: 수면 단계 시퀀스 기반 언어 모델 (2024)
- 출처: medRxiv (프리프린트)
- 핵심 내용: 수면 단계 시퀀스(hypnogram)의 순차적 구조를 활용한 GPT 기반 언어 모델. 기존 수면 단계 분류 모델의 성능을 일관되게 향상시키며, 저밀도 웨어러블 EEG에서도 높은 정확도를 달성
- 방법론: GPT 아키텍처, 1,320,654건의 수면 기록으로 검증, 웨어러블 EEG 120,095건 포함
- 주요 결과: 다양한 EEG 모달리티에서 수면 단계 분류 성능 일관 향상. 웨어러블 EEG 적용에서도 정확도 유지
- 의의: 파운데이션 모델 접근법이 웨어러블 수면 모니터링의 정확도 한계를 돌파할 수 있음을 시사
상용화 동향
| 제품/기업 | 센서 구성 | 4단계 분류 성능 (kappa) | 비고 |
|---|---|---|---|
| Oura Ring Gen3 | PPG + 가속도계 + 온도 | 0.65 (건강인) | 가장 높은 검증 정확도. 다야간 421K 에폭 검증 |
| Apple Watch Series 8+ | PPG + 가속도계 | 0.53-0.60 | watchOS 수면 앱. 2024년 호흡 장애 탐지 추가 |
| Samsung Galaxy Watch | PPG + 가속도계 | - | Samsung Health 수면 분석. OSA 스크리닝 FDA 승인 |
| Fitbit (Charge 5/Sense) | PPG + 가속도계 + EDA | 0.55 | Sleep Score 제공. Premium 구독 모델 |
| Whoop 4.0 | PPG + 가속도계 + 온도 | PSG 대비 제한적 검증 | 운동선수 중심 리커버리 코칭 |
| Withings ScanWatch | PPG + 가속도계 | 0.22 | 낮은 수면 단계 분류 정확도 |
| Garmin Vivosmart 4 | PPG + 가속도계 | 0.21 | fair 수준의 일치도 |
| Google/PH-LLM | 웨어러블 데이터 + LLM | N/A | Gemini LLM 기반, 수면 의학 시험 79% (전문가 76% 초과) |
한계 및 과제
- 개인 수준 정확도 부족: 평균 수준에서 PSG와 합리적 일치를 보여도, 개인 야간 수준에서는 상당한 부정확성이 존재하여 임상 수면 의학에서의 활용은 제한적
- 임상 환자군 성능 저하: 수면 장애 환자에서 정확도가 크게 하락 (건강인 kappa 0.53-0.65 vs 임상 환자 ~0.35-0.53). 실제 임상 필요가 가장 큰 집단에서 성능이 가장 낮은 역설
- N1 수면 분류의 고질적 어려움: 대부분의 웨어러블과 알고리즘이 N1(수면 진입 단계)을 정확히 분류하지 못해 N1+N2를 "light sleep"으로 통합. 전문 수면 기사 간에도 N1 일치율이 낮음
- 피부온도 센서의 제한적 보급: IncepTransNet 등의 연구에서 피부온도의 기여가 확인되었으나, 대부분의 상용 기기에서 온도 센서의 수면 단계 분류 활용은 제한적
- 야간 모션 아티팩트: PPG 신호는 수면 중 체동이나 손목 움직임에 의해 크게 왜곡될 수 있으며, 이에 대한 표준화된 아티팩트 처리 방법이 부재
- 데이터 편향과 일반화: 대부분의 검증 연구가 건강한 젊은-중년 성인 위주. 고령자, 소아, 다인종 집단에서의 검증 부족
- EEG 없는 근본적 한계: 수면 단계의 금본위 정의가 EEG(뇌파) 패턴에 기반하므로, 말초 센서(PPG, 가속도계)로는 원리적으로 EEG 수준의 정확도에 도달하기 어려움
참고 자료
- Smartwatch Sleep Staging Algorithm - Sleep Medicine (2024)
- Evaluating Reliability in Wearable Sleep Staging - npj Digital Medicine (2024) · 원문
- 6 Commercial Wearables Validation - Sleep Advances (2025)
- Skin-Interfaced Wearable for Sleep - PNAS (2025) · 원문
- IncepTransNet Skin Temperature - IEEE (2024)
- Computationally Efficient Algorithm - Scientific Reports (2023) · 원문
- Oura Ring Gen3 Validation - Sleep Medicine (2024)
- Oura Ring Systematic Review - OTO Open (2025)
- Ring Trackers in Clinical Population - Scientific Reports (2025)
- SleepFM Foundation Model - Nature Medicine (2025) · 원문
- SleepGPT - medRxiv (2024) · 원문
- PH-LLM for Sleep - Nature Medicine (2025)
- DL Review for Sleep Staging - Artificial Intelligence Review (2024)
- Deep Learning Smart Garment - PNAS (2025)