[UIST 24 REVIEW] Play APT(ROSE&Bruno Mars) without touching anything

EarHover: Mid-Air Gesture Recognition for Hearables Using Sound Leakage Signals
Eun Ho Kim's avatar
Oct 29, 2024
[UIST 24 REVIEW] Play APT(ROSE&Bruno Mars) without touching anything

요즘 ROSE와 Bruno Mars가 함께 부른 "APT"라는 노래가 정말 인기를 끌고 있죠! 간식 먹으면서 손이 지저분할 때 노래를 자유롭게 바꿀 수 있다면 얼마나 편할까요? 오늘은 바로 '손을 대지 않고도 조작할 수 있는 이어폰'에 대한 연구입니다.

APT APT APT ~

Figure 1.A of the paper

This document is structured as follows:

  • Meta Information about the Paper (논문 정보)

  • Researcher's Affiliation Site (저자 연구실 정보)

  • Content for General Readers (일반 독자를 위한 내용)

  • Content for Korean Readers Who Want to Know More about the Paper (관련 분야 한국 전문가를 위한 한글 내용)

  • In conclusion (마치며)

let’s start.


Meta Information about the Paper

Suzuki, S., Amesaka, T., Watanabe, H., Shizuki, B., & Sugiura, Y. (2024, October). EarHover: Mid-Air Gesture Recognition for Hearables Using Sound Leakage Signals. In Proceedings of the 37th Annual ACM Symposium on User Interface Software and Technology (pp. 1-13).

Video: https://lclab.org/projects/earhover


Researcher's Affiliation Site

Assistant Prof. Yuta Sugiura

  • Keio University Faculty of Science and Technology Department of Information Engineering

  • Research themes

    • Lifestyle computing
      Soft interfaces that get into your heart
      Human-robot collaborative work

https://lclab.org/people/yutasugiura


Content for General Readers

motivation

  • Current hearable devices have limited input methods

  • Voice control is challenging to use in public or noisy environments

  • Touch input can be unhygienic and cause ear strain

  • Existing sensors only support limited commands

Thus, mid-air gesture input is needed:

  • Eliminates the need for physical contact

  • Works without additional sensors or cameras

  • Compatible with existing hearable hardware

  • Keeps hands and devices clean

한글 요약:

  • 현재 히어러블 기기는 입력 방식에 한계가 있음

  • 공공 장소나 시끄러운 환경에서 음성 제어 사용이 어려움

  • 터치 입력은 비위생적이고 귀에 부담을 줄 수 있음

  • 기존 센서는 제한된 명령만을 지원함

따라서 중간 공중 제스처 입력이 필요함:

  • 물리적 접촉이 필요하지 않음

  • 추가 센서나 카메라 없이 작동함

  • 기존 히어러블 하드웨어와 호환 가능함

  • 손과 기기의 위생을 유지할 수 있음

contribution

  • Introduced the EarHover system — the first mid-air gesture recognition system using sound leakage signals, implementable with built-in speakers and external microphones

  • Designed and evaluated 27 gestures, selecting 7 optimal gestures based on signal discriminability and user preference

  • Showed minimal impact on music listening experience and high recognition performance across different device types

  • Achieved an average false detection rate of 1.8% and gesture classification rate of 79.7-88.8% across various environments

  • Demonstrated practical implementation using standard hearable components, making it cost-effective and easy to integrate into existing devices

한글요약:

  • EarHover 시스템을 소개함 - 소리 누출 신호를 사용한 첫 공중 제스처 인식 시스템으로, 내장 스피커와 외부 마이크만으로 구현 가능함

  • 27개의 제스처를 설계하고 평가해, 신호 식별 가능성과 사용자 선호도를 기준으로 7개의 최적 제스처를 선정함

  • 음악 청취 경험에 미치는 영향이 적고, 다양한 기기 유형에서 높은 인식 성능을 보임

  • 평균 오탐율 1.8%와 다양한 환경에서 79.7-88.8%의 제스처 분류율을 달성함

  • 기존 히어러블 구성 요소만으로 구현 가능해 비용 효율적이며 상용 제품에 쉽게 통합 가능함


Content for Korean Readers Who Want to Know More about the Paper

Input with hearables

  • 히어러블 입력 방식 분류: 손 입력, 핸즈프리 입력

  • 손 입력:

    • 터치 제스처 입력 연구:

      • Xu 외 [54]: 기기 내장 마이크로 얼굴과 귀 주변의 탭핑 및 슬라이딩 제스처를 인식하는 시스템을 제안. 8가지 제스처에 대해 95.3%의 인식률을 달성함.

      • Kikuchi 외 [25]: 귀를 당기는 변형을 인식하기 위해 4개의 포토 리플렉터를 사용함.

      • Lissermann 외 [27]: 기기 입력 영역 확장을 위해 개방형 귀 장치를 위한 정전식 센서를 개발함.

    • 중간 공중 제스처 입력 연구:

      • Yang 외 [55]: 골전도 이어폰을 이용한 제스처 인식 시스템을 제안하고, 소리 누출 현상을 활용한 중간 공중 제스처 인식 연구를 진행함.

      • Tamaki 외 [43]: 히어러블에 장착된 카메라로 손의 윤곽, 손톱 위치, 손가락 관절 각도를 추정하는 시스템을 제안.

      • Metzger 외 [31]: 적외선 근접 센서를 사용해 기기 주변의 중간 공중 스와이프 등 제스처를 인식하는 시스템을 제안함.

    • 문제점:

      • 터치 제스처 입력은 얼굴이나 귀에 접촉이 필요해 손이 젖거나 더러운 경우 사용하기 어렵고, 공중 제스처 입력은 카메라나 포토 리플렉터 사용으로 인해 센서 비용과 개인정보 보호 문제 발생.

    • EarHover의 장점:

      • EarHover는 내장 스피커와 외부 마이크를 활용해 음악 재생과 음성 녹음을 가능하게 하고, 히어러블과의 호환성을 높이며 구현 비용을 낮춤.

      • Yang 외 [55]의 방식은 EarHover와 유사한 원리를 사용하지만, 이 연구는 공기 전도 음을 생성하는 이어폰/오픈형 이어폰에 초점을 맞추며, 합성 음악 신호에 대한 민감도, 손 상태에 대한 영향, 일상 활동에서 제스처 감지를 분석함.

  • 핸즈프리 입력:

    • 핸즈프리 입력 연구:

      • Manabe 외 [29]: 귀팁에 전도성 고무를 삽입해 눈 움직임을 측정하는 시스템을 제안함.

      • Denys 외 [30]: 귀팁에 부착된 근전도 센서를 사용해 얼굴 제스처를 인식하는 시스템을 제안함.

      • Tobias 외 [34]: 귀팁에 스피커와 압력 센서를 장착한 프로토타입 기기로 귀 내부 소음을 측정하여 핸즈프리 입력을 구현함.

      • Sun 외 [42]: 귀 안쪽 마이크와 스피커로 귀관 변형을 모니터링해 무음 음성 상호작용을 가능하게 하는 시스템을 제안함.

    • 문제점:

      • 손 입력에 비해 핸즈프리 입력은 손을 사용할 필요가 없어서 손이 바쁠 때 유용하지만, 미세한 얼굴 움직임이 일상 활동과 혼동될 수 있음.

      • 구두 명령 입력은 깨우기 단어 또는 입 움직임이 필요해 지속적 입력에 시간이 걸리고 대화 중에는 어렵다는 단점이 있음.

    • 연구 필요성:

      • 사용 상황에 따라 손 입력과 핸즈프리 입력을 유연하게 사용하는 것이 바람직해 추가 연구가 필요함.

Acoustic-Based Recognition

  • 음향 신호로 사용자 인식: 음향 신호 활용을 통해 사용자 제스처 [35, 48, 51, 58], 생체 인식 특징 [21, 50], 움직임 [19, 53] 등을 포착함

  • 주요 연구 사례:

    • Yongpan 외 [57]: 스마트워치와 스마트폰의 스피커-마이크를 사용해 공중에 숫자와 알파벳을 그리는 제스처를 인식하는 손가락 추적 시스템을 제안함.

    • Mingshi 외 [15]: 스마트워치 주변 공중에서 숫자를 그리는 제스처를 인식하는 시스템을 제안함.

    • Yang 외 [20]: 스마트폰의 톤 신호로 도플러 이동을 측정해 입과 혀의 움직임으로 단어를 인식하는 시스템을 제안함.

    • Yingcheng 외 [24]: 헤드폰 외부에 장착된 스피커가 초음파 톤을 재생하여 사용자의 앞에 있는 사람의 수화 동작을 인식하는 시스템을 제안함.

    • Amesaka 외 [3]: 스윕 신호의 음향 누출을 통해 귀의 형태 정보를 수집하고 분석하는 개인 인증 시스템을 제안함.

  • 기술적 차이점:

    • 스마트폰/스마트워치 또는 외부 스피커를 장착한 히어러블 장치는 측정 신호를 직접 대상에 보내 필요 신호 강도를 쉽게 확보할 수 있음.

    • 반면, EarHover는 히어러블에서 발생하는 누출 신호를 사용하므로, 청력 손실을 방지하기 위해 적절한 음압 조절이 필요하고, 외이 반사로 인해 신호가 약해지는 문제가 있음.

    • 기존 음향 누출 신호를 사용하는 개인 인증 시스템에서는 주로 이어폰의 장착으로 귀 모양을 인식하지만, 본 연구에서는 소리 누출 신호의 감지 대상을 기기 상단 공간으로 확장하여 공중 제스처에서 손 움직임을 감지할 수 있음을 시연함.

    • EarHover는 현재 상용 히어러블과 완전히 호환되지 않지만, 이론적 설계 원칙이 명확하여 기존 하드웨어에 통합될 가능성을 제시함.

Limitation and Future work

Limitation

  • 연구는 외부 마이크가 장착된 프로토타입으로 진행되었고, 향후 상용 히어러블 내장 마이크로 실험 예정.

  • Yetong 외[14]의 플랫폼을 통해 내장 마이크 접근성을 높여 EarHover의 통합을 개선할 예정.

  • 외부 전원 사용의 한계를 해결하기 위해 내장 가능한 MEMS 마이크 및 증폭 회로를 탐구할 계획.

  • 청소년을 포함한 다양한 연령층을 대상으로 추가 실험이 필요.

  • 의미 있는 제스처 세트와 시스템 성능 간의 균형을 연구해야 함.

Future work

  • 소리 누출 신호로 터치 제스처 중 손 움직임을 감지할 수 있는 소음에 강한 터치 제스처 인식 시스템을 연구할 계획.

  • 일상 활동이 공중 제스처 인식에 오탐지를 유발할 가능성 확인.

  • 소리 누출 신호를 활용한 정교한 손 움직임 캡처 및 사용자 자세 및 움직임 패턴 인식을 연구할 계획.


In conclusion

Reference papers can be found below

https://dl.acm.org/doi/10.1145/3654777.3676367

If you have any questions, please contact me at the email address below.

ehlkim0215@gmail.com

Share article

eunhokim