[CHI 24 REVIEW] OmniActions: Predicting Digital Actions in Response to Real-World Multimodal Sensory Inputs with LLMs

OmniActions: Predicting Digital Actions in Response to Real-World Multimodal Sensory Inputs with LLMs
Eun Ho Kim's avatar
Oct 12, 2024
[CHI 24 REVIEW] OmniActions: Predicting Digital Actions in Response to Real-World Multimodal Sensory Inputs with LLMs

This document is structured as follows:

  • Meta Information about the Paper (논문 정보)

  • Researcher's Affiliation Site (저자 연구실 정보)

  • Content for General Readers (일반 독자를 위한 내용)

  • Content for Korean Readers Who Want to Know More about the Paper (관련 분야 한국 전문가를 위한 한글 내용)

  • In conclusion (마치며)

let’s start.


Meta Information about the Paper

Li, J. N., Xu, Y., Grossman, T., Santosa, S., & Li, M. (2024, May). OmniActions: Predicting Digital Actions in Response to Real-World Multimodal Sensory Inputs with LLMs. In Proceedings of the CHI Conference on Human Factors in Computing Systems (pp. 1-22).

Video:https://dl.acm.org/doi/10.1145/3613904.3642068


Researcher's Affiliation Site

jiahao Nick Li

  • research interest

    • Human-AI Interaction

HCI Research, University of California, Los Angeles, United States

https://hci.ucla.edu/#projects

  • Aligning with human values

  • Assimilating human intents

  • Augmenting human abilities

with Reality Labs Research, Meta, Canada and United States


Content for General Readers

motivation

Augmented Reality, or AR, helps people see extra information in the real world, like showing directions or messages on their phone. But sometimes, people are too busy to use that information. This study aims to make it easier for people to quickly get help from AR by predicting what they might want to do next.

한글 요약:

증강 현실(AR)은 사람들이 실제 세상에서 추가 정보를 볼 수 있게 도와줍니다. 예를 들면, 핸드폰에 길 안내나 메시지를 보여주는 것처럼요. 하지만 때로는 사람들이 너무 바빠서 그 정보를 바로 사용하기 어렵습니다. 따라서 이 연구는 사람들이 AR을 더 쉽게 사용할 수 있도록, 그들이 다음에 하고 싶은 일을 예측해 도와주려는 것이 목표입니다.

contribution

The study found common actions people might want to do after seeing information in AR. They also created a system called OmniActions, which guesses what the person might do next, and tested it to see if it helps.

한글 요약:

연구에서는 사람들이 AR에서 정보를 본 후에 할 수 있는 일반적인 행동들을 찾아냈습니다. 또 OmniActions라는 시스템을 만들어, 사람이 다음에 할 일을 예측할 수 있게 하고, 그 시스템이 얼마나 도움이 되는지 테스트했습니다.


Content for Korean Readers Who Want to Know More about the Paper

Figure 12 of the paper

이 연구는 멀티모달 정보를 활용한 결정 지원 논리 과정을 설명합니다. 입력 데이터는 이미지, 소리, 텍스트와 같은 다양한 유형의 정보로 구성되며, 이를 처리하는 주요 구성 요소로는 시각 데이터를 분석해 객체를 식별하는 객체 탐지기, 이미지에서 텍스트를 추출하는 OCR(광학 문자 인식), 오디오 데이터를 분석하는 음향 분류기와 음성-텍스트 변환 시스템이 있습니다.

이후 이 정보들은 구조화된 텍스트 형식으로 정리됩니다. 예를 들어, 이미지에서 추출된 장면 설명(“라벨이 붙은 청바지”), 물리적 객체 식별(“태그, 바지”), OCR로 추출된 가시적 텍스트(“STRIGO - MOM JEAN... AMERICAN EAGLE”), 배경 소리 설명(“배경 음악, 사람 말소리”), 그리고 오디오 대화 내용이 포함됩니다.

이와 더불어 사용자가 위치한 장소나 현재의 활동과 같은 명시적 맥락 정보도 고려됩니다. 예를 들어, 사용자가 American Eagle 매장에서 바지를 쇼핑 중인 상황입니다. 이러한 명시적 맥락 정보와 결합된 데이터는 대형 언어 모델(LLM)을 통해 논리적 사고 방식을 적용해 추론됩니다. 예를 들어, "사용자가 American Eagle에서 바지를 쇼핑 중이며, 라벨의 사진을 찍었으니 청바지에 대한 추가 정보를 원할 가능성이 있다"는 식의 추론이 가능합니다.

마지막으로, 이 추론을 바탕으로 LLM은 사용자가 집중하고 있는 목표 정보와 그에 따른 후속 행동을 예측합니다. 예를 들어, 사용자가 청바지에 집중하고 있다면, 제안된 후속 행동으로는 "청바지에 대한 추가 정보 찾기"가 될 수 있습니다. 이 과정을 통해 다양한 정보와 맥락적 지식을 결합해 사용자의 결정을 지원하는 방식이 설명됩니다.

Limitation

  • 39명의 참여자와 382개의 데이터만 수집하여 다양성과 일반성이 부족함.

  • 개인정보 보호 문제로 실제 오디오/비디오 데이터를 수집하지 못하고, 텍스트 설명에 의존함.

  • 자발적 보고에 의존하여 실제 행동과 일치하지 않을 수 있음.

  • 제한적인 맥락 정보 수집, 다른 중요한 맥락 요소가 포함되지 않음.

  • 현재 스마트폰에서 가능한 행동에 편향되어, 미래 AR 기술을 반영하지 못함.

  • 평가가 주로 예측 정확성에 집중되어, 지연 시간, 개인정보 문제, 사용자 경험 같은 요소를 고려하지 않음.

  • 프로토타입 테스트가 5명의 참여자만을 대상으로 실험실에서 진행되어, 실제 상황에 대한 피드백이 부족함.

  • LLM(대형 언어 모델)에 대한 의존성이 높아, 그 한계와 편향 문제에 취약함.

  • 장기적인 사용 성과에 대한 평가가 이루어지지 않음.

  • 예측 오류 처리 및 복구 방법에 대한 충분한 평가가 부족함.


In conclusion

Reference papers can be found below

https://dl.acm.org/doi/10.1145/3613904.3642068

If you have any questions, please contact me at the email address below.

ehlkim0215@gmail.com

Share article

eunhokim