MLLM

이주용 멘토님의 세미나 24.10.11(금)
디지털 기기 조작을 위한 MLLM agent

MLLM prompt

MLLM 에이전트는 디지털 기기의 상태를 이미지나 텍스트 형식으로 받아들이고, 그 정보를 바탕으로 디지털 기기를 조작하는 행동 출력을 만들어낸다. 이 에이전트는 여러 옵션들 중 하나를 선택하여 기기를 제어할 수 있으며, 탭(tap), 스와이프(swipe), 버튼(button) 등의 액션을 통해 다양한 UI 요소와 상호작용할 수 있다.

MLLM 에이전트를 위한 프롬프트는 기기의 화면에 대한 관찰 결과를 포함하며, 에이전트는 이를 바탕으로 적절한 행동을 결정한다. 에이전트는 작업 지침을 받고 관찰된 정보를 분석한 후, 해당 정보를 토대로 액션을 선택하고 출력하는 방식으로 디지털 기기를 제어한다.

프롬프트에는 관찰된 정보의 설명, 현재 상황에 대한 요약, 다음 단계에 대한 계획, 그리고 최종 액션 결정이 포함되어 있다.

MLLM 에이전트는 모바일 기기 위에서 주어진 디지털 업무를 자율적으로 수행한다.
에이전트는 기기의 현재 상태를 인식하고, 이를 바탕으로 필요한 동작을 선택하여 실행한다.

예를 들어, 사용자가 알람을 설정해야 할 때 에이전트는 알람 시간을 조정하고, 알람 옵션을 변경하는 등의 작업을 수행한다. 또는 긴급 상황에서 긴급 전화를 걸어야 할 때 자동으로 해당 작업을 실행할 수 있다. 이러한 방식으로, MLLM 에이전트는 디지털 기기의 다양한 작업을 자동화하고 사용자에게 도움을 줄 수 있다.

Algorithm

MLLM 에이전트를 더욱 효율적으로 개발하기 위해, base MLLM 모델을 파인 튜닝(fine-tuning)하고 입력 프롬프트 엔지니어링, 행동 정의 등의 과정을 통해 최적화한다.

베이스모델을 파인튜닝 하는 것은 기본적인 지식을 끌어올리는거고 액션스페이스를 만드는 것 뿐만 아니라 모델의 베이스(일반적 추론능력)있다고 가정하고 ..
이 시스템은 디지털 기기의 상태를 텍스트 기반으로 관찰한 후, 스크린 번역기(screen translator)를 통해 분석한다. 그런 다음 행동 변환기(action converter)를 사용하여 환경에 적합한 행동을 정의한다. 이 과정에서 고수준 프롬프트와 저수준 프롬프트로 나누어 기기의 상태와 작업 지침을 전달하고, 이에 대한 응답으로 연쇄적 사고(CoT: Chain of Thought)와 행동을 실행하게 된다.
MLLM 에이전트는 이런 방식으로 다양한 디지털 작업을 자동으로 수행하며, 기본 모델을 세밀하게 튜닝하여 더욱 정확한 작업 수행이 가능하도록 개선한다.

주어진 에이전트가 특정 기기 위에서 많은 프로덕트화가 이루어지거나, 한정된 트레이닝 데이터셋으로만 학습해야 하는 상황에서 가장 큰 문제 중 하나는 일반화 능력이다. AI 딥러닝 모델은 특정한 환경이나 데이터셋에만 최적화될 경우, 다른 환경이나 새로운 데이터에 대한 성능이 떨어질 수 있다는 일반화 문제를 안고 있다.

이를 해결하기 위해서는 모델이 얼마나 다양한 환경에서 일반화할 수 있는지를 평가할 수 있는 파이프라인을 구축해야 한다.

일반화를 평가하는 연구

파이프라인 구축: 다양한 디지털 기기와 상황을 반영한 평가 환경을 구성한다. 이 환경에서 에이전트가 훈련되지 않은 새로운 상황에서도 잘 대응할 수 있는지 확인하기 위한 테스트를 설계한다. 단순히 정적인 데이터셋만 가지고 학습하는 것이 아니라, 실제 환경에서의 상호작용을 포함하는 동적 데이터와 다양한 시나리오를 반영한 평가가 필요하다.
데이터셋의 한계: static dataset만 가지고 트레이닝하고 평가하기에는 한계가 있다. 정적인 데이터셋은 실제 환경에서 발생하는 다양한 변동성을 포함하지 못하며, 이는 일반화에 큰 영향을 미친다. 따라서 다양한 환경에서의 데이터 수집이 중요하다. 실시간 인터랙션 데이터를 포함한 동적인 데이터를 통해 훈련 및 평가를 진행하면 더 다양한 시나리오에 대응할 수 있는 능력을 높일 수 있다.
연구 진행: 에이전트가 다양한 디지털 기기와 환경에서 일반화할 수 있는 능력을 확인하기 위한 연구를 진행한다. 여기서는 특히 OOV(Out-Of-Vocabulary) 데이터와 새로운 기기 설정에 대한 테스트를 중점적으로 진행하여 에이전트의 적응성을 평가한다. 이를 통해 얼마나 기존 학습 데이터에 의존하지 않고 새로운 상황에 적응하는지 확인할 수 있다.

Generalization

MLLM 에이전트의 일반화 능력에 대한 연구 질문은 "다양한 사용자들의 기기들에 일반적으로 대응할 수 있을까?"이다. 즉, 다양한 사용자 의도에 맞추어 여러 디지털 기기 환경에서 에이전트가 적절한 행동을 수행할 수 있는지에 대한 연구를 진행한다.

이 연구는 MLLM 에이전트가 다양한 기기 상태와 설정을 인식하고, 이를 바탕으로 주어진 의사결정을 내리며, 각 기기에서 적절한 행동 출력을 만들어내는지를 검토한다. 다양한 사용자들이 사용하는 여러 기기에서의 성능을 평가함으로써 에이전트의 일반화 능력을 확인하고, 이를 개선하는 것이 목표다.

따라서 이 연구는 단순히 한정된 트레이닝 데이터셋이나 특정 기기에만 의존하지 않고, 여러 기기와 상황에 적응할 수 있는지 확인하기 위한 실험과 평가로 이어진다.

Benchmarking

모바일 기기 제어 에이전트를 벤치마킹하는 방법을 보여준다. 여기서는 크게 세 가지 알고리즘 디자인을 사용할 수 있는데, 각각의 접근 방식에 따라 모바일 기기 제어 에이전트가 구성된다:

Large Language Model (LLM): 자연어 처리 능력을 기반으로 모바일 기기의 상태를 분석하고 적절한 행동을 출력하는 대형 언어 모델을 사용하는 방법이다.
Multi-modal Large Language Model (MLLM): 다양한 모달리티(예: 텍스트, 이미지, 음성)를 동시에 처리할 수 있는 대형 멀티모달 언어 모델을 사용하는 방법으로, 더 복잡한 상호작용을 지원한다.
Custom Agent: 특정한 목적이나 환경에 맞게 맞춤형으로 설계된 에이전트를 사용하는 방법이다.

이 에이전트들은 다양한 모바일 기기 환경에서 동작하며, 각 환경은 서로 다른 앱과 작업들(예: 크롬, 유튜브, 메일, 설정 등)과 상호작용하는 방식으로 구성된다. 또한, 각 기기의 설정 및 외형이 다르므로, 에이전트는 다양한 기기 환경에서도 일반화된 성능을 보여야 한다.

중점 목표는 다양한 디지털 기기 환경에서 모델의 학습 및 평가 방법을 구축하는 것이다. 여기서 다양한 기기 환경은 실제 사용과 유사한 환경을 의미하며, 예를 들어 아이콘의 위치나 언어 설정과 같은 요소를 포함한다.

구체적으로, 총 131개의 디지털 작업을 통해 에이전트의 일반화 능력을 평가할 수 있는 벤치마크를 구현하는 것이 목표이다. 이를 통해 MLLM 에이전트가 다양한 기기 환경에서 얼마나 잘 대응할 수 있는지, 그리고 제한된 데이터셋이나 특정 환경에 종속되지 않고 얼마나 일반화된 성능을 발휘하는지를 평가할 수 있다.

이러한 벤치마크는 에이전트가 아이콘 위치나 언어 설정과 같은 다양한 기기 설정에서 의사 결정을 얼마나 잘 수행하는지에 대한 연구를 진행하는 데 필수적인 역할을 한다.

최첨단 모델(GPT-4o 및 Gemini-1.5)의 한계점을 파악하기 위해 다양한 테스트 환경을 구성하여 성능을 비교했다. Test Env 100은 기본 환경으로 설정하고, Test Env 101은 일부 설정을 변경한 환경이며, Test Env 105는 언어를 한국어로 바꾼 환경이다. 각 테스트 환경에서의 성공률을 비교한 결과, 익숙하지 않은 환경(예: 언어 설정 변경 또는 긴 상호작용이 필요한 경우)에서 모델의 성공률이 떨어지는 것을 확인했다.

이 그래프에서 보듯이, 기본 환경(Test Env 100)에서는 두 모델 모두 높은 성공률을 보였지만, 설정을 변경한 Test Env 101에서는 성능이 저하되었으며, 한국어 환경인 Test Env 105에서는 더욱 성능이 낮아졌다. 이러한 결과는 모델이 특정 환경에 최적화되어 있더라도, 다양한 환경에서 일반화 능력이 떨어질 수 있음을 보여준다.

이를 통해, 모델이 다양한 환경에 대응할 수 있도록 추가적인 학습 및 튜닝이 필요하며, 특히 다국어 및 복잡한 상호작용을 포함한 환경에서의 성능 개선이 필요하다는 점을 알 수 있다.

Conclusion

커스텀 모델(Llama-3 기반)을 학습시킨 후, 다양한 작업 수행 능력을 평가한 결과를 보여준다. Llama-3 모델을 익숙한 환경에서 학습시킨 후, 다소 다른 테스트 환경에서 성능을 평가한 결과, GPT-4o나 Gemini-1.5 모델과 유사한 성능을 보였다.

그래프에서는 다양한 작업(예: 알람 설정, 계산기 사용, 전화 걸기, 위키피디아 사용 등)에서 각 모델의 성공률을 비교하고 있다. 단순 작업(알람 설정 등)에서는 대부분의 모델이 높은 성공률을 보였지만, 언어 설정과 같이 더 복잡한 작업에서는 성능 차이가 발생했다. 특히 Llama-3 기반 커스텀 모델은 일부 작업에서 기존 모델과 비슷하거나 더 나은 성능을 보였지만, 일반화된 환경에서는 여전히 한계가 존재한다는 점을 보여준다.

결과적으로, 익숙하지 않은 환경에서도 커스텀 모델이 다른 상용화된 모델 수준으로 잘 대응할 수 있음을 확인할 수 있으며, 추가적인 튜닝과 데이터 확장이 필요하다는 점이 시사된다.

다양한 학습 환경(즉, 데이터)의 효과를 분석한 결과는 학습 환경이 모델 성능에 얼마나 중요한 영향을 미치는지를 보여준다. 커스텀 모델을 학습시킨 후, 테스트 환경과 학습 환경이 다를 때 성공률이 크게 달라지는 것을 확인할 수 있었다.

왼쪽 그래프에서는 학습 환경과 테스트 환경이 일치하는 경우(Train) 높은 성공률을 보이는 반면, 학습 환경과 다른 테스트 환경(Test)에서는 성공률이 크게 떨어지는 경향을 보인다. 이는 학습 환경의 다양성이 모델의 일반화 능력에 큰 영향을 미친다는 점을 시사한다.

오른쪽 그래프에서는 7개의 환경(7 Envs)과 35개의 환경(35 Envs) 에서 모델을 학습시킨 결과를 비교한다. 학습 환경이 더 다양할수록(35 Envs), 테스트 환경에서도 더 높은 성공률을 보였음을 알 수 있다. 즉, 학습 환경이 다양할수록 모델의 일반화 능력이 향상된다는 가설이 입증되었다.

이러한 결과는 모델의 성능을 높이기 위해서는 다양한 학습 환경을 고려하는 것이 중요하며, 단순히 한정된 데이터셋만으로 학습할 경우 모델이 새로운 상황에서 적절히 대응하지 못할 수 있음을 보여준다.

MLLM 모델의 발전 가능성을 높이기 위해 더 나은 표현 학습(representation learning) 이 필요하다는 분석 결과를 보여주고 있다. 특히, 다양한 플랫폼 환경에서 데이터를 활용하여 텍스트와 이미지를 함께 학습하는 것이 중요하다.

이 연구에서는 웹, 모바일, 데스크탑 등 여러 플랫폼의 데이터를 활용하여, MLLM 에이전트가 다양한 기기 환경에서도 잘 대응할 수 있도록 표현 학습을 개선할 수 있는 방안을 제시하고 있다. 텍스트와 이미지 데이터 모두를 학습해 보다 강력한 모델을 만들기 위한 연구가 진행 중이다.

오른쪽에 있는 레이더 차트는 다양한 표현 학습 모델들 간의 성능 비교를 보여준다. UGround가 이전 모델(Prior SOTA)보다 여러 환경에서 더 우수한 성능을 발휘함을 알 수 있다. 이처럼 표현 학습을 개선함으로써, MLLM 에이전트가 다양한 기기와 환경에서 더 나은 성능을 발휘할 수 있을 것으로 기대된다.

온-디바이스 MLLM 에이전트는 실제 핸드폰 위에서 동작하는 MLLM 모델로, 최근에 이르러 이러한 기술이 활발하게 연구되고 있다. 이 기술은 클라우드나 외부 서버에 의존하지 않고, 사용자의 기기 자체에서 직접 작동하도록 설계되어 있다.

온-디바이스 MLLM의 장점은 더 빠른 처리 속도와 낮은 대기 시간, 그리고 개인정보 보호 측면에서의 이점을 가지고 있다. 이와 같은 기술은 네트워크 연결이 불안정하거나 클라우드 사용이 제한된 상황에서도 효과적으로 작동할 수 있는 장점을 제공한다.

이미지에 포함된 차트는 다양한 연구기관 및 회사들이 온-디바이스 MLLM을 포함한 모델들을 활발하게 연구하고 있음을 보여준다. Meta, Microsoft, Google을 비롯한 여러 글로벌 기업들이 이 분야에서 연구와 개발을 진행하고 있으며, LLaMA, GPT, Falcon과 같은 다양한 모델들이 등장하고 있다.

이와 같은 연구들이 진행됨에 따라 앞으로 더 많은 디바이스에서 MLLM 에이전트가 실행될 수 있을 것으로 예상되며, 특히 사용자의 기기에서 직접 AI 모델이 실행되는 기술이 더욱 발전할 것이다.

사용자 취향에 맞춘 MLLM 에이전트는 사용자의 과거 행동과 취향을 기억하고 이에 맞게 응답하는 능력을 갖춘다. 이 과정에서 검색 증강 생성(Retrieval-augmented generation, RAG) 기술이 핵심적인 역할을 하게 될 것으로 예상된다. RAG는 주어진 프롬프트에 맞는 정보를 데이터베이스에서 검색하여 이를 문맥(context)으로 활용하고, 이를 기반으로 LLM이 적절한 답변을 생성하는 방식이다.

왼쪽 다이어그램은 단순한 프롬프트-응답 구조의 LLM을 보여주고, 가운데 다이어그램은 RAG 구조에서 검색된 문맥 정보를 추가하여 더 풍부한 응답을 생성하는 과정을 나타낸다. 마지막 오른쪽 다이어그램은 메모리와 도구(tool)들을 활용하여 에이전트가 더욱 복잡한 의사결정과 행동을 수행하는 방식을 보여준다. 이 에이전트는 사용자의 메모리와 도구, 추론 능력을 결합하여 더 맞춤형의 응답과 행동을 생성할 수 있다.

따라서, 이러한 MLLM 에이전트는 사용자와의 상호작용을 기억하고, 그에 맞게 점점 더 최적화된 응답을 제공하는 방식으로 발전할 것으로 보인다.

MLLM 에이전트의 안전성에 대한 문제는 인류의 가치에 어긋나는 행동을 방지하는 데 중요한 역할을 한다. 예를 들어, 왼쪽의 사례는 사용자가 공유해도 문제가 없는 사진을 선택하고 이를 전송하는 작업을 보여주지만, 오른쪽의 사례는 개인 정보가 포함된 민감한 데이터를 공유하려는 위험이 있다.

MLLM 에이전트는 이러한 상황을 인식하고, 안전한 행동을 수행해야 한다. 즉, 개인 정보(예: 신용카드 정보, 신분증 사진 등)를 포함하는 데이터는 공유하지 않도록 하고, 공유 가능한 일반적인 콘텐츠만을 처리할 수 있도록 설계되어야 한다.

이와 같은 문제는 AI 시스템의 안전성 확보와도 직결되며, AI가 사용자의 지시에 따라 동작할 때, 윤리적이고 안전한 판단을 내리는 것이 필수적이다. 따라서, MLLM 에이전트는 이러한 안전성 문제를 해결하기 위한 보완 기술과 시스템이 함께 연구되고 개발되어야 한다.

MLLM 에이전트는 일상생활에서 상호작용하는 디지털 도우미로서 발전 가능성이 크다. 사용자의 일상적인 디지털 작업을 지원하고 다양한 기기들과 연결되어 더욱 큰 시너지를 발휘할 것으로 기대된다. 이 에이전트는 스마트폰, 가정용 로봇, 자율주행 시스템과 같은 다양한 디지털 기기들과의 상호작용을 통해 사용자에게 효율적인 도움을 제공할 수 있다.

예를 들어, 현대차의 자율주행 배달 로봇이나 일상적으로 사용하는 스마트폰 애플리케이션들과 연동되면, 사용자에게 더 편리한 디지털 환경을 제공할 수 있다. 이러한 기술이 발전하면, MLLM 에이전트는 단순한 디지털 작업을 넘어 일상적인 삶의 여러 분야에서 사용자를 보조하는 중요한 역할을 하게 될 것이다.

따라서, MLLM 에이전트가 다양한 디지털 기기와 연동되어 더 나은 사용자 경험을 제공하고, 사용자의 삶을 더욱 편리하고 스마트하게 만들 수 있을 것으로 기대된다.

Q&A

벤치마크나 데이터셋을 구축하는 과정에서, 특히 디지털 기기 조작이라는 테스크는 매우 복잡하고 어려운 작업이었을 것이라 생각된다. 당신이 언급한 것처럼 보상 함수나 평가지표를 설정하는 과정에서 많은 고민이 있었을 것으로 보인다.

보상 함수나 평가 지표를 설정하는 데 있어, 알람을 켜는 시간이나 작업 성공 시간과 같은 세밀한 요소들이 고려되었다고 하셨는데, 이러한 요소를 측정하기 위해 롤베이스 시스템을 구축하고 데이터를 분석하는 방식을 선택한 것은 매우 흥미로운 접근이다. 실제로 GPT 모델이나 다른 AI 모델들이 화면을 어느 정도 이해하게 한 후, 그 기반에서 모델의 성공 여부를 평가하는 지표를 설정하는 방향으로 작업이 진행된다는 점이 인상적이다. 하지만 아직까지는 완전히 robust하지 않다는 언급을 통해, 현재 사용 중인 시스템에도 개선의 여지가 있음을 알 수 있다.

테스트 데이터셋 구축과 관련해서는, 실제 리얼 시스템 환경에서의 테스트가 진행되기 때문에 별도의 데이터셋 수집은 필요하지 않았다는 점이 중요한 차이점이다. 대신, 평가가 제대로 이루어지도록 evaluater를 구현하여 시스템이 제대로 작동하는지 확인하고 평가하는 방식으로 진행되었음을 강조하고 있다.

결론적으로, 데이터베이스와 시스템의 상태를 텍스트 형태로 변환하여 파이프라인을 구축하고, 실제 환경에서 테스트하는 방법을 통해 벤치마크를 만들고 평가 지표를 마련하는 방향으로 작업이 이루어진 것 같다. 이 과정에서 리얼 환경에서의 평가 및 롤베이스 프로그램을 활용한 분석이 중요한 역할을 한 것으로 보인다.

온디바이스 환경에서 기존에 사용하던 텍스트 정보를 사용할 수 없을 경우, 이미지 기반의 환경 이해 능력이 매우 중요한 역할을 하게 된다. 특히 MLLM 에이전트를 온디바이스에 적용할 때, 텍스트 기반의 정보에 의존하지 않고 이미지만 보고 환경을 이해하는 능력이 핵심이 된다.

말씀하신 것처럼, 많은 최신 모델(SOTA 모델)들이 이미지 이해 능력에서 한계를 보이기 때문에, 이를 보완하기 위해 이미지 기반의 학습과 추론을 강화하는 것이 필수적이다. 예를 들어, 스마트폰의 홈 화면이나 앱의 UI는 텍스트뿐만 아니라 이미지, 아이콘, 색상 등 다양한 시각적 요소로 구성되어 있기 때문에, 이 정보를 기반으로 MLLM 에이전트가 환경을 분석하고 적절한 동작을 수행할 수 있어야 한다.

이를 위해 추가적으로 고려할 수 있는 방법

이미지 인식 모델: 이미지에서 텍스트 없이도 시각적 패턴이나 구조를 이해할 수 있는 모델을 사용하는 것. 예를 들어, 화면의 레이아웃이나 아이콘 배치, 특정한 상호작용 요소들을 감지하는 모델을 강화한다.
멀티모달 학습: 텍스트와 이미지를 함께 학습하던 기존 방식에서 벗어나, 이미지 중심의 멀티모달 모델을 사용하여 다양한 시각적 정보만을 기반으로 추론하는 능력을 강화한다.
강화 학습 및 시뮬레이션: 온디바이스 환경에서의 이미지 기반 학습을 강화하기 위해 강화 학습을 적용하여, 다양한 시각적 환경에서 에이전트가 직접 상호작용하며 학습하는 방식도 고려할 수 있다.

결론적으로, 온디바이스 환경에서는 텍스트 정보 없이도 이미지나 비주얼 정보를 통해 환경을 이해할 수 있는 모델을 구축하는 것이 중요하며, 이를 통해 MLLM 에이전트가 보다 정확하고 효율적으로 동작할 수 있도록 학습시켜야 한다.