[UIST 24 REVIEW] Play APT(ROSE&Bruno Mars) without touching anything

EarHover: Mid-Air Gesture Recognition for Hearables Using Sound Leakage Signals

Oct 29, 2024

Contents

motivation contribution Related works Input with hearables Acoustic-Based Recognition Limitation and Future work Limitation Future work In conclusion

요즘 ROSE와 Bruno Mars가 함께 부른 "APT"라는 노래가 정말 인기를 끌고 있죠! 간식 먹으면서 손이 지저분할 때 노래를 자유롭게 바꿀 수 있다면 얼마나 편할까요? 오늘은 바로 '손을 대지 않고도 조작할 수 있는 이어폰'에 대한 연구입니다.

APT APT APT ~

This document is structured as follows:

Meta Information about the Paper (논문 정보)
Researcher's Affiliation Site (저자 연구실 정보)
Content for General Readers (일반 독자를 위한 내용)
Content for Korean Readers Who Want to Know More about the Paper (관련 분야 한국 전문가를 위한 한글 내용)
In conclusion (마치며)

let’s start.

Meta Information about the Paper

Suzuki, S., Amesaka, T., Watanabe, H., Shizuki, B., & Sugiura, Y. (2024, October). EarHover: Mid-Air Gesture Recognition for Hearables Using Sound Leakage Signals. In Proceedings of the 37th Annual ACM Symposium on User Interface Software and Technology (pp. 1-13).

Video: https://lclab.org/projects/earhover

Researcher's Affiliation Site

Assistant Prof. Yuta Sugiura

Keio University Faculty of Science and Technology Department of Information Engineering
Research themes
- Lifestyle computing
  Soft interfaces that get into your heart
  Human-robot collaborative work

https://lclab.org/people/yutasugiura

Content for General Readers

motivation

Current hearable devices have limited input methods
Voice control is challenging to use in public or noisy environments
Touch input can be unhygienic and cause ear strain
Existing sensors only support limited commands

Thus, mid-air gesture input is needed:

Eliminates the need for physical contact
Works without additional sensors or cameras
Compatible with existing hearable hardware
Keeps hands and devices clean

한글 요약:

현재 히어러블 기기는 입력 방식에 한계가 있음
공공 장소나 시끄러운 환경에서 음성 제어 사용이 어려움
터치 입력은 비위생적이고 귀에 부담을 줄 수 있음
기존 센서는 제한된 명령만을 지원함

따라서 중간 공중 제스처 입력이 필요함:

물리적 접촉이 필요하지 않음
추가 센서나 카메라 없이 작동함
기존 히어러블 하드웨어와 호환 가능함
손과 기기의 위생을 유지할 수 있음

contribution

Introduced the EarHover system — the first mid-air gesture recognition system using sound leakage signals, implementable with built-in speakers and external microphones
Designed and evaluated 27 gestures, selecting 7 optimal gestures based on signal discriminability and user preference
Showed minimal impact on music listening experience and high recognition performance across different device types
Achieved an average false detection rate of 1.8% and gesture classification rate of 79.7-88.8% across various environments
Demonstrated practical implementation using standard hearable components, making it cost-effective and easy to integrate into existing devices

한글요약:

EarHover 시스템을 소개함 - 소리 누출 신호를 사용한 첫 공중 제스처 인식 시스템으로, 내장 스피커와 외부 마이크만으로 구현 가능함
27개의 제스처를 설계하고 평가해, 신호 식별 가능성과 사용자 선호도를 기준으로 7개의 최적 제스처를 선정함
음악 청취 경험에 미치는 영향이 적고, 다양한 기기 유형에서 높은 인식 성능을 보임
평균 오탐율 1.8%와 다양한 환경에서 79.7-88.8%의 제스처 분류율을 달성함
기존 히어러블 구성 요소만으로 구현 가능해 비용 효율적이며 상용 제품에 쉽게 통합 가능함

Content for Korean Readers Who Want to Know More about the Paper

Input with hearables

히어러블 입력 방식 분류: 손 입력, 핸즈프리 입력
손 입력:
- 터치 제스처 입력 연구:
  - Xu 외 [54]: 기기 내장 마이크로 얼굴과 귀 주변의 탭핑 및 슬라이딩 제스처를 인식하는 시스템을 제안. 8가지 제스처에 대해 95.3%의 인식률을 달성함.
  - Kikuchi 외 [25]: 귀를 당기는 변형을 인식하기 위해 4개의 포토 리플렉터를 사용함.
  - Lissermann 외 [27]: 기기 입력 영역 확장을 위해 개방형 귀 장치를 위한 정전식 센서를 개발함.
- 중간 공중 제스처 입력 연구:
  - Yang 외 [55]: 골전도 이어폰을 이용한 제스처 인식 시스템을 제안하고, 소리 누출 현상을 활용한 중간 공중 제스처 인식 연구를 진행함.
  - Tamaki 외 [43]: 히어러블에 장착된 카메라로 손의 윤곽, 손톱 위치, 손가락 관절 각도를 추정하는 시스템을 제안.
  - Metzger 외 [31]: 적외선 근접 센서를 사용해 기기 주변의 중간 공중 스와이프 등 제스처를 인식하는 시스템을 제안함.
- 문제점:
  - 터치 제스처 입력은 얼굴이나 귀에 접촉이 필요해 손이 젖거나 더러운 경우 사용하기 어렵고, 공중 제스처 입력은 카메라나 포토 리플렉터 사용으로 인해 센서 비용과 개인정보 보호 문제 발생.
- EarHover의 장점:
  - EarHover는 내장 스피커와 외부 마이크를 활용해 음악 재생과 음성 녹음을 가능하게 하고, 히어러블과의 호환성을 높이며 구현 비용을 낮춤.
  - Yang 외 [55]의 방식은 EarHover와 유사한 원리를 사용하지만, 이 연구는 공기 전도 음을 생성하는 이어폰/오픈형 이어폰에 초점을 맞추며, 합성 음악 신호에 대한 민감도, 손 상태에 대한 영향, 일상 활동에서 제스처 감지를 분석함.
핸즈프리 입력:
- 핸즈프리 입력 연구:
  - Manabe 외 [29]: 귀팁에 전도성 고무를 삽입해 눈 움직임을 측정하는 시스템을 제안함.
  - Denys 외 [30]: 귀팁에 부착된 근전도 센서를 사용해 얼굴 제스처를 인식하는 시스템을 제안함.
  - Tobias 외 [34]: 귀팁에 스피커와 압력 센서를 장착한 프로토타입 기기로 귀 내부 소음을 측정하여 핸즈프리 입력을 구현함.
  - Sun 외 [42]: 귀 안쪽 마이크와 스피커로 귀관 변형을 모니터링해 무음 음성 상호작용을 가능하게 하는 시스템을 제안함.
- 문제점:
  - 손 입력에 비해 핸즈프리 입력은 손을 사용할 필요가 없어서 손이 바쁠 때 유용하지만, 미세한 얼굴 움직임이 일상 활동과 혼동될 수 있음.
  - 구두 명령 입력은 깨우기 단어 또는 입 움직임이 필요해 지속적 입력에 시간이 걸리고 대화 중에는 어렵다는 단점이 있음.
- 연구 필요성:
  - 사용 상황에 따라 손 입력과 핸즈프리 입력을 유연하게 사용하는 것이 바람직해 추가 연구가 필요함.

Acoustic-Based Recognition

음향 신호로 사용자 인식: 음향 신호 활용을 통해 사용자 제스처 [35, 48, 51, 58], 생체 인식 특징 [21, 50], 움직임 [19, 53] 등을 포착함
주요 연구 사례:
- Yongpan 외 [57]: 스마트워치와 스마트폰의 스피커-마이크를 사용해 공중에 숫자와 알파벳을 그리는 제스처를 인식하는 손가락 추적 시스템을 제안함.
- Mingshi 외 [15]: 스마트워치 주변 공중에서 숫자를 그리는 제스처를 인식하는 시스템을 제안함.
- Yang 외 [20]: 스마트폰의 톤 신호로 도플러 이동을 측정해 입과 혀의 움직임으로 단어를 인식하는 시스템을 제안함.
- Yingcheng 외 [24]: 헤드폰 외부에 장착된 스피커가 초음파 톤을 재생하여 사용자의 앞에 있는 사람의 수화 동작을 인식하는 시스템을 제안함.
- Amesaka 외 [3]: 스윕 신호의 음향 누출을 통해 귀의 형태 정보를 수집하고 분석하는 개인 인증 시스템을 제안함.
기술적 차이점:
- 스마트폰/스마트워치 또는 외부 스피커를 장착한 히어러블 장치는 측정 신호를 직접 대상에 보내 필요 신호 강도를 쉽게 확보할 수 있음.
- 반면, EarHover는 히어러블에서 발생하는 누출 신호를 사용하므로, 청력 손실을 방지하기 위해 적절한 음압 조절이 필요하고, 외이 반사로 인해 신호가 약해지는 문제가 있음.
- 기존 음향 누출 신호를 사용하는 개인 인증 시스템에서는 주로 이어폰의 장착으로 귀 모양을 인식하지만, 본 연구에서는 소리 누출 신호의 감지 대상을 기기 상단 공간으로 확장하여 공중 제스처에서 손 움직임을 감지할 수 있음을 시연함.
- EarHover는 현재 상용 히어러블과 완전히 호환되지 않지만, 이론적 설계 원칙이 명확하여 기존 하드웨어에 통합될 가능성을 제시함.

Limitation and Future work

Limitation

연구는 외부 마이크가 장착된 프로토타입으로 진행되었고, 향후 상용 히어러블 내장 마이크로 실험 예정.
Yetong 외[14]의 플랫폼을 통해 내장 마이크 접근성을 높여 EarHover의 통합을 개선할 예정.
외부 전원 사용의 한계를 해결하기 위해 내장 가능한 MEMS 마이크 및 증폭 회로를 탐구할 계획.
청소년을 포함한 다양한 연령층을 대상으로 추가 실험이 필요.
의미 있는 제스처 세트와 시스템 성능 간의 균형을 연구해야 함.

Future work

소리 누출 신호로 터치 제스처 중 손 움직임을 감지할 수 있는 소음에 강한 터치 제스처 인식 시스템을 연구할 계획.
일상 활동이 공중 제스처 인식에 오탐지를 유발할 가능성 확인.
소리 누출 신호를 활용한 정교한 손 움직임 캡처 및 사용자 자세 및 움직임 패턴 인식을 연구할 계획.

In conclusion

Reference papers can be found below

https://dl.acm.org/doi/10.1145/3654777.3676367

If you have any questions, please contact me at the email address below.

ehlkim0215@gmail.com