멀티모달 AI는 텍스트, 이미지, 영상, 음성 등 다양한 데이터 모달리티를 함께 고려하여 “서로의 관계성을 학습 및 표현하는 기술 “ 입니다. 따라서 멀티모달 AI는 하나의 모달리티를 활용하는 것보다 다양한 작업을 수행할 수 있습니다. 예를 들어, 이미지로 텍스트 검색을 하거나 텍스트에서 이미지를 검색, 혹은 이미지와 텍스트를 같이 이해하는 멀티모달 검색이 가능합니다. 그리고 최근에는 이미지를 보고 텍스트를 생성하거나 텍스트를 기반으로 이미지를 생성하는 다양한 활용 사례도 존재합니다.
“4일 정보기술(IT) 업계에 따르면 지난해 챗GPT 열풍으로 주목받은 생성형 AI의 대규모언어모델(LLM) 개발 경쟁은 대규모멀티모달모델(LLM) 개발 경쟁으로 진화하고 있다”
애플은 **최근 LLM이자 이미지 분석과 답변 생성에 특화된 페럿(Ferret)**과 디지털 아바타를 생성하는 휴먼 가우시안 스플랫 관련 논문을 선보였다
멀티모달 개발 경쟁의 승자는 '정확성'이 가를 것이란 전망이 많다.
→ 저희는 텍스트를 기반으로 시작해 이미지 및 영상 과의 멀티모달에 초점을 맞출 예정입니다.
오픈AI의 CLIP(Contrastive Language-Image Pretraining)은 자연어의 맥락에서 이미지를 이해하도록 설계됐다. 텍스트 설명을 이해함으로써 명시적으로 훈련되지 않은 범주에서도 이미지를 정확하게 분류할 수 있는 제로샷 이미지 분류와 같은 작업을 수행할 수 있다.
딥마인드(DeepMind)의 플라밍고(Flamingo)는 언어와 시각적 이해의 장점을 모두 활용하도록 설계돼 텍스트와 이미지의 정보를 해석하고 통합해야 하는 작업을 수행할 수 있다.
출처 : 지티티코리아(https://www.gttkorea.com)
Multimodal Image-text Classification
목적: 실제 텍스트 ↔ 이미지, 영상 처리 관련 방법론을 활용한 응용
![<https://post-phinf.pstatic.net/MjAyMjAyMjJfMjk3/MDAxNjQ1NTA2MTkzODkz.Se10qfb7g96OOd_eGgKP3JLrtaevImEN2IPNz-AvPaAg.F4KHPNwOx50jJ420-v3DMeqYdDRV_wpNPT4P1HcRLTgg.PNG/%EB%A9%80%ED%8B%B0%EB%AA%A8%EB%8B%AC_%EB%94%A5%EB%9F%AC%EB%8B%9D_%EC%9D%B4%EB%AF%B8%EC%A7%95_%EA%B8%B0%EC%88%A0_2.png?type=w1200>](<https://post-phinf.pstatic.net/MjAyMjAyMjJfMjk3/MDAxNjQ1NTA2MTkzODkz.Se10qfb7g96OOd_eGgKP3JLrtaevImEN2IPNz-AvPaAg.F4KHPNwOx50jJ420-v3DMeqYdDRV_wpNPT4P1HcRLTgg.PNG/%EB%A9%80%ED%8B%B0%EB%AA%A8%EB%8B%AC_%EB%94%A5%EB%9F%AC%EB%8B%9D_%EC%9D%B4%EB%AF%B8%EC%A7%95_%EA%B8%B0%EC%88%A0_2.png?type=w1200>)
출처: [<https://openaccess.thecvf.com/>](<https://openaccess.thecvf.com/>)
멀티모달 딥러닝 이미징 기술은 영상에서 객체의 종류, 크기, 방향, 위치 등 공간정보를 실시간으로 알아내는 학습된 지식 정보를 기반으로 딥러닝 기술을 활용하는 AI 영상처리 기술을 의미합니다.
AI 영상처리 기술은 영상분석 및 다양한 센서를 통해 수집된 센서 데이터를 포함하여 상황 정보를 인식, 해석, 추론과 같은 처리 과정을 거친 후, 서비스 분야별로 필요한 도메인 지식을 포함하는 상황 인식 모델을 구성하고 관리해 상황 정보를 추론하여 객체, 모션, 상황 등을 인식하는 서비스입니다.