불완전한 웨어러블 데이터에서도 학습할 수 있을까?
기본 정보
- 제목: LSM-2: Learning from Incomplete Wearable Sensor Data
- 저자: Xu, M.A., Narayanswamy, G., Ayush, K., Spathis, D., Liao, S. 외 다수 (Google DeepMind)
- 저널: arXiv (NeurIPS 2025 심사 중)
- 출판연도: 2025
- DOI: arXiv:2506.05321
- PMID: -
- 근거 수준: 탐색적 분석 (대규모 코호트, 동료 심사 전)
- URL: arxiv.org
이 연구는 60,000명 이상의 참여자로부터 수집한 4,000만 시간의 웨어러블 데이터로 학습한 기반 모델 LSM-2를 개발했다. 핵심 혁신인 AIM(Adaptive and Inherited Masking) 프레임워크를 통해, 센서 고장이나 데이터 누락 상황에서도 기존 모델 대비 73% 적은 성능 저하를 달성했다.
1. 이 연구는 왜 필요했을까
현실 세계에서 웨어러블 데이터는 완벽하지 않다. 사용자가 기기를 벗거나 충전하는 동안, 센서가 오작동하는 경우, 또는 특정 시간대에 데이터가 수집되지 않는 경우가 빈번하다. 기존의 웨어러블 기반 모델들은 이런 불완전한 데이터를 처리하기 위해 보정(imputation) 기법에 의존했지만, 보정 자체가 오류를 도입할 수 있다는 근본적 한계가 있었다.
LSM-2는 불완전한 데이터에서 직접 학습하는 최초의 웨어러블 기반 모델로, 명시적 데이터 보정 없이 결측값을 처리한다.
2. 어떻게 연구했을까
연구진은 자기지도학습(self-supervised learning) 기반으로 LSM-2를 설계했다. 핵심은 AIM 프레임워크로, 기존의 마스킹 전략과 데이터 결측 패턴을 결합한 학습 방식이다. 학습 가능한 마스크 토큰을 사용하여 기존의 결측값("상속된" 결측)과 학습 과정에서 인위적으로 도입한 결측을 동시에 모델링한다.
2024년 3월부터 5월까지 수집된 데이터를 사용했으며, 센서를 인위적으로 제거하거나 시간 윈도우를 삭제하는 방식으로 내결함성(fault tolerance)을 평가했다. 비교 기준은 이전 버전인 LSM-1과 데이터 보정 기반 모델이다.
3. 무엇을 발견했을까
특정 센서나 시간 윈도우를 인위적으로 제거했을 때, LSM-2의 성능 저하는 LSM-1 대비 평균 73% 적었다. 이는 실제 배포 환경에서 사용자의 기기 착용 패턴이 불규칙하더라도 안정적인 건강 예측이 가능함을 의미한다.
센서 실패 시 LSM-2는 보정 기반 모델 대비 현저히 적은 성능 저하를 보여, 현실 세계 배포에 필수적인 내결함성을 확보했다.
LSM-1(ICLR 2025 발표)의 아키텍처를 기반으로 하면서도, 불완전한 데이터 처리 능력을 크게 개선하여 실용적 가치를 높였다.
4. 우리 서비스에 어떻게 쓸까
제품 기능
사용자가 기기를 일부 시간대에 착용하지 않더라도 일관된 건강 분석을 제공하는 기능 설계에 참고할 수 있다. 데이터 결측이 불가피한 상황에서 분석 결과의 신뢰도를 유지하는 전략이 중요하다.
콘텐츠 활용
- "스마트워치를 매일 안 차도 건강 분석이 가능한 이유"
- "불완전한 데이터에서도 배우는 AI: 웨어러블 헬스의 현실적 해법"
적용 시 주의사항
이 연구는 프리프린트 단계이며, Google 자체 데이터로 평가되었다. 앱에서 불완전한 데이터 기반 분석을 제공할 때는 "데이터가 충분하지 않아 추정치의 신뢰도가 낮을 수 있다"는 투명한 안내가 필요하다.
5. 한계점
학습 데이터가 Fitbit/Pixel Watch 사용자로 한정되어 있어, 다른 기기나 센서 구성에서의 성능은 확인되지 않았다. 또한 어느 정도의 데이터 결측까지 허용 가능한지에 대한 명확한 임계값이 제시되지 않아, 실제 서비스에서의 품질 기준 설정에 추가 연구가 필요하다.
마무리
LSM-2는 웨어러블 AI의 실용적 배포에서 가장 중요한 문제 중 하나인 데이터 불완전성을 정면으로 다룬 연구다. 현실 세계의 불규칙한 데이터 환경에서도 안정적으로 작동하는 모델의 개발은, 웨어러블 건강 서비스의 신뢰성 확보에 핵심적인 진전이다.
관련 문서
- 아이디어 파일: 파운데이션 모델 서비스