[UIST 24 REVIEW] BlendScape: Enabling End-User Customization of Video-Conferencing Environments through Generative AI

BlendScape: Enabling End-User Customization of Video-Conferencing Environments through Generative AI
Eun Ho Kim's avatar
Nov 09, 2024
[UIST 24 REVIEW] BlendScape: Enabling End-User Customization of Video-Conferencing Environments through Generative AI

This document is structured as follows:

  • Meta Information about the Paper (논문 정보)

  • Researcher's Affiliation Site (저자 연구실 정보)

  • Content for General Readers (일반 독자를 위한 내용)

  • Content for Korean Readers Who Want to Know More about the Paper (관련 분야 한국 전문가를 위한 한글 내용)

  • In conclusion (마치며)

let’s start.


Meta Information about the Paper

Rajaram, S., Numan, N., Kumaravel, B. T., Marquardt, N., & Wilson, A. D. (2024, October). BlendScape: Enabling End-User Customization of Video-Conferencing Environments through Generative AI. In Proceedings of the 37th Annual ACM Symposium on User Interface Software and Technology (pp. 1-19).

Video: Null


This work is from Microsoft Research team.

Researcher's Affiliation Site

PhD candidate Shwetha Rajaram

  • University of Michigan School of Information, Microsoft Research

https://shwetharajaram.github.io/

UMSI Interaction Lab : https://www.mi2lab.com/

  • Research Interest

    • augmented reality (AR)

    • Toolkit for MX


Content for General Readers

motivation

  • Increase in the Need for Video Conferencing: Since the COVID-19 pandemic, video conferencing has become an essential tool across various fields, including remote work, distance learning, health consultations, and social gatherings. However, existing video conferencing tools do not reflect the diverse needs of users, leading to monotonous and inefficient meeting environments.

  • Challenges in Distributed Collaboration: Current video conferencing systems limit interaction among users, induce meeting fatigue, and hinder the transmission of interpersonal signals during conversations. Therefore, there is a need for more expressive meeting environments.

  • Technical Limitations: While research on effective meeting environment design has been conducted, there is a lack of tools that allow end-users to implement these designs in real-time. Commercial customization tools do not provide the flexibility needed for users to adjust environments on the fly.

한글 요약:

  • 비디오 회의의 필요성 증가: COVID-19 팬데믹 이후 비디오 회의는 원격 근무, 원거리 학습, 건강 상담, 사회적 모임 등 다양한 분야에서 필수적인 도구로 자리잡았음. 그러나 기존 비디오 회의 도구는 사용자의 다양한 요구를 반영하지 못하고, 회의 환경이 단조롭고 비효율적임.

  • 분산 협업의 어려움: 현재의 비디오 회의 시스템은 사용자 간의 상호작용을 제한하고, 회의 피로를 유발하며, 대화 중 대인 간 신호의 전달을 방해하는 문제를 안고 있음. 따라서 보다 표현력 있는 회의 환경이 필요함.

  • 기술적 한계: 효과적인 회의 환경 디자인에 대한 연구는 진행되었으나, 최종 사용자가 이러한 디자인을 실시간으로 구현할 수 있는 도구는 부족함. 상업적 맞춤화 도구는 사용자가 환경을 적시에 조정하는 데 필요한 유연성을 제공하지 못하고 있음.

contribution

  • Development of the BlendScape Composition System: The BlendScape system, based on generative AI, enables users to customize video conferencing environments in real-time. This provides users with personalized meeting environments and enhances the efficiency of distributed collaboration.

  • Introduction of Expressive Design Techniques: BlendScape employs inpainting and image-to-image techniques to integrate users' video backgrounds into blended environments and offers methods to transform existing images in line with meeting purposes.

  • Evaluation through User Studies: A study involving 15 end-users was conducted to assess the expressiveness and customization potential of BlendScape. Users recognized the potential of generative AI technologies to support a range of collaborative activities and provided feedback on the additional controls needed for real-time environment adjustments.

  • Proposals for Supporting Design Participants: Based on the research findings, considerations for supporting new design participants are presented, along with suggestions for future improvements to BlendScape.

한글요약:

  • BlendScape 구성 시스템 개발: 생성적 AI 기반의 BlendScape 시스템을 통해 사용자가 비디오 회의 환경을 실시간으로 맞춤화할 수 있도록 했음. 이는 사용자에게 개인화된 회의 환경을 제공하며, 분산 협업의 효율성을 높임.

  • 표현력 있는 디자인 기술 도입: BlendScape는 인페인팅 및 이미지-투-이미지 기술을 활용하여 사용자의 비디오 배경을 혼합된 환경으로 통합하고, 회의 목적에 맞게 기존 이미지를 변형할 수 있는 방법을 제공함.

  • 사용자 연구를 통한 평가: 15명의 최종 사용자를 대상으로 한 연구를 통해 BlendScape의 표현력과 사용자 맞춤화 가능성을 평가했음. 사용자들은 생성적 AI 기술이 다양한 협업 활동을 지원할 수 있는 잠재력을 인정하였고, 실시간 환경 조정 시 필요로 하는 추가 제어에 대한 피드백을 제공함.

  • 디자인 참여자 지원 방안 제안: 연구 결과를 바탕으로 새로운 디자인 참여자를 지원하기 위한 고려 사항을 제시하며, 향후 BlendScape의 개선 방향성을 제안함.


Content for Korean Readers Who Want to Know More about the Paper

Design Strategies for Video-Conferencing Environments

  • BlendScape 목표: 회의 환경을 동적으로 맞춤화할 수 있는 통합 커스터마이제이션 기술 제공,

    • *여기서 환경은 "무대"나 배경으로 정의

      • 채팅이나 호스트 제어와 같은 기능 도구 제외

  • 디자인 공간 이해: 상업적 비디오 회의 도구와 연구 시스템 검토 후, 세 가지 주요 역할 도출(Figure 참고):

  • 공유된 맥락 형성: 분산된 사용자들에게 공유된 참조 프레임 제공

    • 통합된 회의 공간 내 사용자 표시

      • 통합된 환경에 렌더링하여 공존감을 높이기 위함[30,44, 48, 56]

    • 물리적 또는 디지털 작업 공간 요소 통합[24,29, 34,37,38]

    • 회의 주제 설정

      • Wazaam[30]과 VideoPlay[20]는 스토리북 일러스트 속에 아이들을 합성하는 등의 놀이적 상호작용을 위한 캡처 및 렌더링 기술을 도입

  • 의사소통을 위한 공간적 은유 활성화: 대면 상호작용에서의 협업 전략을 모방하는 공간적 기법들

    • 사용자의 비디오 근접성을 통한 대화 전환 촉진

      • 물리적 공간과 유사한 회의실은 근접성을 활용한 상호작용을 통해 대화를 촉진

      • 예시: *Gather에서는 사용자가 서로 "걸어가는" 방식으로 1:1 비디오 통화를 시작 가능

      • OpenMic [28]에서는 사용자가 "가상 플로어" 근처에 위치하여 발언 의사를 표시

    • 크기 조작을 통한 대화 전환 촉진

      • 특정 사용자를 강조하는 데 흔히 사용

      • 예시)

        • Teams와 Zoom의 스피커 보기 기능은 활성화된 발언자를 다른 참가자보다 큰 크기로 렌더링

        • OpenMic [28]에서는 사용자가 비디오 크기를 늘려 대화 전환을 조율

    • 공간 음향 렌더링

      • 대화 흐름을 따르는 데 도움을 주며 하이브리드 회의에서 원격 참가자의 포용성을 지원

      • 예시 : MirrorVerse의 [23] “doorway” 기능은 사용자가 참여하기 전에 소회의실 대화를 청취할 수 있도록 함

    • 사용자의 레이아웃 구조화로 발언 순서 지원

      • 예시 : *TogetherMode에서 사용자를 테이블 주위에 앉히기

    • 자기중심적 시점 렌더링

      • 예시 : Perspectives [56] 에서는 발언자와의 눈맞춤 등 대면 사회적 신호를 시뮬레이션하며 발언 순서를 추가로 지원

  • 협업의 기록 또는 아티팩트(산물)로서의 역할: 협업 활동을 문서화하고 후속 아이디어 생성에 활용

    • 사용자 상호작용과 환경 변화의 기록 가능

      • 예시 : MirrorVerse의 작업 공간 기록 및 재생 도구 [23]

    • 회의 환경은 협업을 통해 생성된 아티팩트가 될 수 있음

      • 인테리어 디자인 또는 가상 세계 구축 시나리오에서 사용 가능

      • VR 몰입형 저작 도구 [59, 64]

  • 실시간 커스터마이징의 어려움: 상업적 화상 회의 도구는 사전 설정에 집중, 실시간 환경 커스터마이징 지원 부족 [23].

  • 생성적 AI 기술 활용: 회의 환경을 동적으로 생성하는 장벽을 낮추기 위해 생성형 AI를 활용하여 빠르게 환경 디자인을 조정하고 회의 맥락에 맞게 시각화

Gather : https://www.gather.town/

TogetherMode : Microsoft에서 만든 프로그램

AI-Assisted Environment Generation

  • 기술자가 아닌 사용자와 생성적 AI 모델의 상호작용:

    • 최근 HCI 연구[1, 15, 16, 18, 42]에서 다양한 콘텐츠(이미지 [2, 43, 53, 61, 66], 텍스트 [6, 50, 52], 3D 객체 [14, 22, 33, 35, 36] 등)를 사용자 입력 기반으로 생성하는 AI 모델에 중점.

  • 이미지 생성 기술의 발전:

    • ControlNet과 같은 보조 모델이 깊이, 의미 데이터, 인간 자세 등을 활용해 생성물을 다양한 방식으로 조정 가능.[41, 65]

    • 스케치 [12, 13, 65], 음성 [46], 슬라이더 [11], 반복적 디자인 메커니즘 [15, 18, 55] 등 직관적 사용자 제어 기법 연구됨.

  • 이미지 생성 모델을 활용한 가상 환경의 동적 생성을 위한 관심이 증가:

    • 기존 절차적 방법론이 AI 기반 접근으로 발전.

      • 예시:

        • WordsEye [14] - 텍스트 설명을 3D 장면으로 변환하기 위해 3D 모델 및 사전 정의된 규칙을 사용

        • DreamWalker [60 ] - 절차적 생성을 통해 VR 사용자가 물리적 환경을 안전하게 탐색할 수 있도록 가상 콘텐츠로 대체

  • 생성적 기술을 활용한 창의적 지원 도구 사례:

    • WorldSmith [15]: 다중 모드 이미지 모델을 활용해 허구적 세계 요소 제작 지원.

    • Opal [42]: 뉴스 삽화를 위한 시각적 개념 탐색 및 LLM 기반 프롬프트 조정.

    • BlendScape: 비디오 회의 배경을 하나의 장면으로 블렌딩하는 기능 제공.

Contents about the paper

  1. 연구의 핵심 내용 (Core Research)

    • BlendScape: 생성형 AI를 활용한 화상회의 환경 커스터마이징 시스템

    • 사용자가 실시간으로 회의 환경을 맥락에 맞게 수정할 수 있음

  1. 주요 기술적 특징 (Technical Features)

    • 인페인팅(Inpainting)과 이미지-투-이미지(Image-to-Image) 생성 기술 활용

    • 실제 배경과 가상 배경을 자연스럽게 혼합하는 블렌딩 기능

    • GPT를 활용한 프롬프트 강화 기능

  1. 시스템 구성 요소 (System Components)

    • Unity 기반 클라이언트 인터페이스

    • Microsoft Teams 통합

    • Stable Diffusion 이미지 생성 모델 활용

    • PixelLib 객체 분할 기능

  1. 사용자 연구 결과 (User Study Results)

    • 15명의 실제 사용자 대상 탐색적 연구 진행

    • 업무/교육/사교 등 다양한 시나리오에서의 활용 가능성 확인

    • 사용자들의 긍정적 피드백과 개선점 도출

  1. 향후 연구 방향 (Future Research)

    • 실시간 영상 처리 속도 개선 필요성

    • 비대칭적 환경 설정 기능 연구

    • 자동화된 환경 적응 기능 연구

  1. 주요 응용 시나리오 (Key Application Scenarios)

    • 디자인 브레인스토밍

    • 원격 교육

    • 가족 스토리텔링

  1. 기술적 제한사항 (Technical Limitations)

    • 실시간 영상 처리의 한계

    • 사용자 배치와 관련된 제약사항

    • 이미지 생성 품질의 불안정성

  1. 연구의 의의 (Research Significance)

    • 화상회의 환경의 실시간 커스터마이징 가능성 제시

    • 생성형 AI의 실용적 활용 사례 제시

    • 원격 협업 경험 개선을 위한 새로운 접근법 제안


In conclusion

Reference papers can be found below

https://dl.acm.org/doi/10.1145/3654777.3676326

If you have any questions, please contact me at the email address below.

ehlkim0215@gmail.com

Share article

eunhokim