수면 단계 정밀 분류

가속도계, PPG, 피부온도 등 웨어러블 센서 조합으로 PSG(EEG 기반) 없이 수면 단계를 4단계(Wake/Light/Deep/REM)로 분류하는 기술

개요

입력 시그널: 가속도계(체동), PPG(심박/HRV), 피부온도(distal skin temperature)
대체 대상: 수면다원검사(PSG) — EEG, EOG, EMG를 사용한 금본위 수면 단계 분류
현재 성숙도: 중-상 — 4단계 분류 정확도 약 76-80%, Cohen's kappa 0.55-0.66 수준. 상용 스마트워치/반지에 탑재되어 있으나 PSG 대비 개인 수준의 편차가 크고 임상 활용에는 제한적. 파운데이션 모델(SleepFM, SleepGPT) 등장으로 패러다임 전환 진행 중

주요 연구 및 논문

1. 스마트워치 센서 기반 수면 단계 분류 알고리즘 (2024)

출처: Sleep Medicine, ScienceDirect
핵심 내용: Samsung 스마트워치의 PPG와 가속도계 신호만을 사용하여 건강인 및 수면무호흡 환자 모두에서 수면 단계를 분류하는 RNN 기반 모델을 개발. 23개 입력 특성을 추출하여 30초 에폭 단위로 예측
방법론: RNN(순환 신경망), 1,522 야간 기록(이질적 집단, 다양한 Samsung 워치 버전), 23개 가속도계/PPG 특성
주요 결과: 건강인과 수면무호흡 환자 모두에서 경량/고속 수면 단계 분류 가능. 기기 내 실시간 예측에 최적화된 저연산 모델
의의: 대규모 이질적 집단(1,522명)에서 검증된 실용적 스마트워치 알고리즘. 수면무호흡 환자 포함이 임상 적용 가능성을 높임

2. 웨어러블 수면 단계 분류의 신뢰성 평가: 범위 리뷰 (2024)

출처: npj Digital Medicine, Nature
핵심 내용: 지난 10년간 35개 논문, 62개 웨어러블 구성을 분석한 범위 리뷰. 가속도계+PPG 데이터 조합이 실외 수면 단계 분류의 주류 트렌드로 부상. 가속도계 단독은 수면/각성 이진 분류에는 효과적이나 다단계 분류에는 한계
방법론: 범위 리뷰(scoping review), PRISMA-ScR 가이드라인, 2014-2024 문헌
주요 결과: 멀티 센서 기기(가속도계+PPG+온도 등)가 단일 센서 대비 우수. PPG 신호가 다단계 분류의 핵심 입력으로 확인
의의: 분야 전체의 기술 동향과 센서 조합별 성능 차이를 체계적으로 정리한 최신 리뷰

3. 6종 상용 스마트워치의 PSG 대비 수면 단계 분류 검증 (2025)

출처: Sleep Advances, PMC
핵심 내용: Fitbit Charge 5, Fitbit Sense, Withings Scanwatch, Garmin Vivosmart 4, Whoop 4.0, Apple Watch Series 8 등 6종의 상용 손목형 웨어러블을 PSG와 비교 검증
방법론: PSG 동시 측정, Cohen's kappa 및 에폭 단위 일치도 분석
주요 결과: Cohen's kappa 범위 0.21-0.53. Apple Watch Series 8이 가장 높은 일치도(kappa=0.53, moderate), Withings Scanwatch(0.22)와 Garmin Vivosmart 4(0.21)는 fair 수준
의의: 상용 기기 간 성능 격차가 크며, 최고 성능 기기도 moderate 일치도에 그침. 임상 의사결정에 활용하기에는 부족함을 실증

4. 피부 부착형 무선 웨어러블 기기와 수면 단계/장애 탐지 (Du et al., 2025)

출처: PNAS
핵심 내용: 심장 및 호흡 측정을 동기화하는 다중 모달 피부 부착형 기계음향 센서 개발. 호흡수, 심박수, HRV, 온도를 포함한 생체 신호를 연속 무선 모니터링하고, 해석 가능한 ML 모델(LMA-SleepNet)과 결합하여 수면 단계와 무호흡 이벤트를 탐지
방법론: 피부 부착형 기계음향 센서 + LMA-SleepNet(해석 가능 ML), 온도 포함 다중 모달
주요 결과: 수면 단계 구분과 무호흡 이벤트 탐지 모두에서 우수한 성능. 임상 및 가정 환경 모두에서 활용 가능
의의: 피부온도를 포함한 다중 모달 접근의 최전선. 해석 가능한 모델 설계로 임상 신뢰성 확보

5. IncepTransNet: 피부온도 기반 웨어러블 수면 단계 분류 모델 (2024)

출처: IEEE Xplore
핵심 내용: 환경 온도, 상대 습도, 4지점 피부온도를 측정하는 다중 모달 웨어러블 센서 시스템으로 고해상도 데이터 기반 수면 단계 분류 모델 구축. 피부온도를 주 입력으로 사용하는 드문 연구
방법론: Inception + Transformer 하이브리드 아키텍처(IncepTransNet), 피부온도 4지점 + 환경 센서
주요 결과: 피부온도 기반 분류의 실현 가능성을 입증
의의: PPG/가속도계 중심의 주류 접근과 차별화. 피부온도가 수면 단계 분류에 독립적 기여를 한다는 근거 제공

6. 연산 효율적 수면 단계 분류 알고리즘 (Kotzen et al., 2023)

출처: Scientific Reports, Nature
핵심 내용: 가속도계(체동)와 반사형 PPG 센서(IBI, 순간 심박수)를 사용하여 4단계 수면 분류(Wake/N1+N2/N3/REM)를 수행하는 연산 효율적 알고리즘. 기존 HRV 기반 접근법과 동등한 성능을 50배 빠른 실행 시간으로 달성
방법론: 경량 신경망, 가속도계+PPG 2채널 입력, 30초 에폭 분류
주요 결과: 중앙값 kappa 0.638, 정확도 77.8%. 기존 HRV 기반 모델 대비 50배 빠른 연산 속도
의의: 스마트워치 온디바이스 배포를 위한 연산 효율성 최적화의 중요성을 입증

7. Oura Ring Gen3의 수면 단계 분류 검증 (2024)

출처: Sleep Medicine, ScienceDirect
핵심 내용: Oura Ring Generation 3 + OSSA 2.0 알고리즘을 96명의 다야간 PSG 데이터(421,045 에폭)로 검증. 수면 시간, 입면 잠복기, 깊은 수면/얕은 수면 시간 등에서 PSG와 유의미한 차이 없음
방법론: 96명(건강한 일본 성인, 20-70세), 다야간 PSG 동시 측정, 421,045개 30초 에폭
주요 결과: 민감도 94.4%, 특이도 73.0-74.6%, 수면/각성 이진 분류 정확도 91.7-91.8%. 수면 단계별 정확도 75.5%(light)-90.6%(REM). 기기 간 신뢰도 94.8%
의의: 반지형 웨어러블의 가장 대규모 다야간 PSG 검증 연구. 건강인에서 높은 정확도 확인, 단 임상 환자군에서는 정확도 하락 가능성

8. SleepFM: 다중 모달 수면 파운데이션 모델 (Stanford, 2025)

출처: Nature Medicine
핵심 내용: 약 65,000명, 585,000시간 이상의 PSG 기록으로 훈련한 대조 학습 기반 다중 모달 파운데이션 모델. 한 밤의 수면 데이터로 130개 이상의 질환을 예측하며, 향후 웨어러블 데이터 통합을 계획
방법론: Contrastive learning 기반 파운데이션 모델, 다중 PSG 구성 수용, 5초 간격 시퀀스 학습
주요 결과: 전사망률 C-Index 0.84, 치매 0.85, 심근경색 0.81, 심부전 0.80, 만성 신장 질환 0.79, 뇌졸중 0.78
의의: 수면 데이터의 LLM 버전. 수면 단계 분류를 넘어 수면 신호에서 전신 건강 상태를 예측하는 패러다임 전환. 웨어러블 통합 시 가정용 건강 모니터링의 혁신 가능

9. SleepGPT: 수면 단계 시퀀스 기반 언어 모델 (2024)

출처: medRxiv (프리프린트)
핵심 내용: 수면 단계 시퀀스(hypnogram)의 순차적 구조를 활용한 GPT 기반 언어 모델. 기존 수면 단계 분류 모델의 성능을 일관되게 향상시키며, 저밀도 웨어러블 EEG에서도 높은 정확도를 달성
방법론: GPT 아키텍처, 1,320,654건의 수면 기록으로 검증, 웨어러블 EEG 120,095건 포함
주요 결과: 다양한 EEG 모달리티에서 수면 단계 분류 성능 일관 향상. 웨어러블 EEG 적용에서도 정확도 유지
의의: 파운데이션 모델 접근법이 웨어러블 수면 모니터링의 정확도 한계를 돌파할 수 있음을 시사

상용화 동향

제품/기업	센서 구성	4단계 분류 성능 (kappa)	비고
Oura Ring Gen3	PPG + 가속도계 + 온도	0.65 (건강인)	가장 높은 검증 정확도. 다야간 421K 에폭 검증
Apple Watch Series 8+	PPG + 가속도계	0.53-0.60	watchOS 수면 앱. 2024년 호흡 장애 탐지 추가
Samsung Galaxy Watch	PPG + 가속도계	-	Samsung Health 수면 분석. OSA 스크리닝 FDA 승인
Fitbit (Charge 5/Sense)	PPG + 가속도계 + EDA	0.55	Sleep Score 제공. Premium 구독 모델
Whoop 4.0	PPG + 가속도계 + 온도	PSG 대비 제한적 검증	운동선수 중심 리커버리 코칭
Withings ScanWatch	PPG + 가속도계	0.22	낮은 수면 단계 분류 정확도
Garmin Vivosmart 4	PPG + 가속도계	0.21	fair 수준의 일치도
Google/PH-LLM	웨어러블 데이터 + LLM	N/A	Gemini LLM 기반, 수면 의학 시험 79% (전문가 76% 초과)

한계 및 과제

개인 수준 정확도 부족: 평균 수준에서 PSG와 합리적 일치를 보여도, 개인 야간 수준에서는 상당한 부정확성이 존재하여 임상 수면 의학에서의 활용은 제한적
임상 환자군 성능 저하: 수면 장애 환자에서 정확도가 크게 하락 (건강인 kappa 0.53-0.65 vs 임상 환자 ~0.35-0.53). 실제 임상 필요가 가장 큰 집단에서 성능이 가장 낮은 역설
N1 수면 분류의 고질적 어려움: 대부분의 웨어러블과 알고리즘이 N1(수면 진입 단계)을 정확히 분류하지 못해 N1+N2를 "light sleep"으로 통합. 전문 수면 기사 간에도 N1 일치율이 낮음
피부온도 센서의 제한적 보급: IncepTransNet 등의 연구에서 피부온도의 기여가 확인되었으나, 대부분의 상용 기기에서 온도 센서의 수면 단계 분류 활용은 제한적
야간 모션 아티팩트: PPG 신호는 수면 중 체동이나 손목 움직임에 의해 크게 왜곡될 수 있으며, 이에 대한 표준화된 아티팩트 처리 방법이 부재
데이터 편향과 일반화: 대부분의 검증 연구가 건강한 젊은-중년 성인 위주. 고령자, 소아, 다인종 집단에서의 검증 부족
EEG 없는 근본적 한계: 수면 단계의 금본위 정의가 EEG(뇌파) 패턴에 기반하므로, 말초 센서(PPG, 가속도계)로는 원리적으로 EEG 수준의 정확도에 도달하기 어려움

수면 단계 정밀 분류

개요

주요 연구 및 논문

1. 스마트워치 센서 기반 수면 단계 분류 알고리즘 (2024)

2. 웨어러블 수면 단계 분류의 신뢰성 평가: 범위 리뷰 (2024)

3. 6종 상용 스마트워치의 PSG 대비 수면 단계 분류 검증 (2025)

4. 피부 부착형 무선 웨어러블 기기와 수면 단계/장애 탐지 (Du et al., 2025)

5. IncepTransNet: 피부온도 기반 웨어러블 수면 단계 분류 모델 (2024)

6. 연산 효율적 수면 단계 분류 알고리즘 (Kotzen et al., 2023)

7. Oura Ring Gen3의 수면 단계 분류 검증 (2024)

8. SleepFM: 다중 모달 수면 파운데이션 모델 (Stanford, 2025)

9. SleepGPT: 수면 단계 시퀀스 기반 언어 모델 (2024)

상용화 동향

한계 및 과제

참고 자료