파일 목록으로

시중 스마트워치 6종의 수면 단계 분류, PSG와 얼마나 일치할까?

기본 정보

  • 제목: A performance validation of six commercial wrist-worn wearable sleep-tracking devices for sleep stage scoring compared to polysomnography
  • 저자: Schyvens, A.-M., Peters, B., Van Oost, N. C., Aerts, J.-M., Masci, F., Neven, A., Dirix, H., Wets, G., Ross, V., Verbraecken, J.
  • 저널: Sleep Advances
  • 출판연도: 2025
  • DOI: 10.1093/sleepadvances/zpaf021
  • PMID: -
  • 근거 수준: 횡단 연구 (진단 검증)

이 연구는 Fitbit Charge 5, Fitbit Sense, Withings Scanwatch, Garmin Vivosmart 4, Whoop 4.0, Apple Watch Series 8 등 6종의 상용 손목형 웨어러블을 PSG와 동시 측정하여 수면 단계 분류 성능을 직접 비교했다. Apple Watch Series 8이 kappa 0.53으로 가장 높은 일치도를 보였지만 moderate 수준에 그쳤고, 기기 간 성능 격차가 매우 컸다.


1. 이 연구는 왜 필요했을까

수많은 상용 웨어러블이 수면 단계 분류 기능을 제공하고 있지만, 동일한 조건에서 여러 기기를 PSG와 동시에 비교한 연구는 드물었다. 각 기기가 제공하는 수면 데이터의 신뢰성이 얼마나 다른지, 어떤 기기가 가장 정확한지에 대한 객관적 근거가 부족했다.

소비자들은 스마트워치의 수면 데이터를 신뢰하고 건강 결정에 활용하지만, 기기 간 성능 차이가 얼마나 큰지는 잘 알려져 있지 않았다.

이 연구는 가장 널리 사용되는 6종의 기기를 동일한 수면 연구실에서 PSG와 함께 비교하여, 소비자와 연구자 모두에게 객관적 근거를 제공하고자 했다.


2. 어떻게 연구했을까

62명의 성인(남성 52명, 여성 10명, 평균 나이 46세)을 수면 연구실에 초대하여, 한 밤 동안 PSG와 함께 2-4개의 웨어러블을 동시에 착용하도록 했다. 각 참여자에게 모든 기기를 착용시킨 것이 아니라, 기기별로 참여자를 배정하여 데이터를 수집했다.

수면 전문가가 PSG 데이터를 AASM(미국수면의학회) 기준에 따라 30초 에폭 단위로 수면 단계를 판독하고, 각 웨어러블의 분류 결과와 에폭 단위로 일치도를 비교했다. Cohen's kappa, 민감도/특이도, Bland-Altman 분석을 사용하여 성능을 평가했다.


3. 무엇을 발견했을까

6종 기기 모두 수면 감지(수면 vs 각성) 민감도는 90% 이상이었으나, 각성 감지 특이도는 29-52%로 낮았다. 이는 모든 기기가 총 수면 시간을 과대 추정하고, 잠에서 깬 시간(WASO)을 과소 추정하는 경향을 의미한다.

Cohen's kappa 범위는 0.21-0.53으로, Apple Watch Series 8이 0.53(moderate)으로 가장 높았고, Garmin Vivosmart 4가 0.21(fair)로 가장 낮았다.

Fitbit Sense(kappa 0.50)와 Fitbit Charge 5(kappa 0.48)도 비교적 양호한 성능을 보였지만, Withings Scanwatch(0.22)와 Garmin Vivosmart 4(0.21)는 수면 단계 분류 신뢰도가 매우 낮았다. 수면무호흡 중증도가 높을수록 모든 기기의 성능이 저하되는 경향도 확인되었다.


4. 우리 서비스에 어떻게 쓸까

제품 기능

FastingWorks 앱에서 수면 단계 데이터를 활용할 때, 연동하는 기기별 신뢰도 차이를 내부적으로 고려해야 한다. Apple Watch 사용자의 수면 데이터는 상대적으로 신뢰할 수 있지만, 저성능 기기의 데이터는 보정이나 보수적 해석이 필요하다. 수면 효율성을 과대 추정하는 경향을 보정하는 알고리즘도 검토할 수 있다.

콘텐츠 활용

  • "스마트워치별 수면 분석 정확도 비교: 어떤 기기를 믿어야 할까?"
  • "스마트워치가 수면 시간을 과대 추정하는 이유"
  • "수면 데이터를 더 정확하게 읽는 법: 추세 변화에 주목하기"

적용 시 주의사항

횡단 연구 수준의 검증이므로, "연구에서 상용 스마트워치의 수면 단계 분류 정확도가 기기별로 상이한 것으로 나타났습니다"라는 표현이 적절하다. 특정 기기를 폄하하거나 과도하게 홍보하는 표현은 피해야 하며, 모든 기기에서 추세 변화 추적은 유용할 수 있다는 균형 잡힌 안내가 바람직하다.


5. 한계점

이 연구의 가장 큰 한계는 1박 검증이라는 점이다. 수면은 야간마다 변동이 크므로, 여러 밤에 걸친 검증이 더 신뢰성 있는 결과를 제공할 수 있다. 또한 남성 비율이 84%로 성별 불균형이 심하고, 인종적 다양성도 부족하다.

Garmin(72%)과 Apple Watch(43%)의 결측 데이터가 높아 분석의 신뢰성에 영향을 줄 수 있다. 앱에서 기기별 데이터 품질을 평가할 때, 결측 비율도 함께 모니터링해야 한다.


마무리

이 연구는 동일 조건에서 6종 상용 스마트워치의 수면 단계 분류 성능을 PSG와 직접 비교한 귀중한 데이터를 제공한다. 최고 성능 기기도 moderate 수준의 일치도에 그친다는 현실을 인정하고, 절대값보다 추세 변화에 초점을 맞추는 것이 웨어러블 수면 데이터 활용의 핵심이다.


관련 문서

0 / 37