Multimodal이 가진 Infinite Dimensions 살펴보기 (ft. Diffusion Model, RL)

👇🏻 👇🏻 [Ongoing Project Official Page] 현재 진행중인 official 링크 바로가기 👇🏻 👇🏻

Multimodal이 가진 Infinite Dimensions 살펴보기 (ft. DM, RL)

빌더 소개

안녕하세요, 가짜연구소와 함께하는 여정에 참여하게 된 홍예원입니다. ¨̮ 가짜연구소의 일원으로 함께하는 것은 처음인데 많이 노력하고 배우고, 배울 수 있는 팀원으로 함께하도록 하겠습니다!

빌더이기 전에 저도 함께 배우고, 많은 공부가 필요한 입장에서, 제가 가진 작지만 또 깊었던 이전 경험들을 통해 같은 목표를 가진 분들과 공통된 관심사를 가지고 진득하게 연구해보고 싶다는 생각이 들었습니다. ㅎㅎ 다양한 데이터를 아우르는 AI 기술의 진화와 그 가능성에 대해 탐구하는 것을 목표로 함께 유의미한 것들을 공유할 수 있는 시간이 되었으면 좋겠습니다.

저는 주로 소프트웨어 엔지니어로서의 경험이 있었는데, 최근 프로덕트 매니지먼트, 특히 AI Product 에 관심이 많이 생겨, 그 쪽 관련 동향이나 기술을 리서치하고, 또 관련 모델을 개발하고 조정할 수 있는 역량까지 키우고 싶다는 생각이 들었습니다. 주언어는 개발, 모델 모두 공통적으로 Python이어서 ML관련 프레임워크도 얕게나마 이것저것 다뤄본 경험이 있습니다:)

[홍예원](<https://chanrankim.notion.site/4a59591c40dd49d3b288db7b78b2d27c>)

팀 소개

배경

멀티모달 AI 란?

멀티모달 AI는 텍스트, 이미지, 영상, 음성 등 다양한 데이터 모달리티를 함께 고려하여 “서로의 관계성을 학습 및 표현하는 기술 “ 입니다. 따라서 멀티모달 AI는 하나의 모달리티를 활용하는 것보다 다양한 작업을 수행할 수 있습니다. 예를 들어, 이미지로 텍스트 검색을 하거나 텍스트에서 이미지를 검색, 혹은 이미지와 텍스트를 같이 이해하는 멀티모달 검색이 가능합니다. 그리고 최근에는 이미지를 보고 텍스트를 생성하거나 텍스트를 기반으로 이미지를 생성하는 다양한 활용 사례도 존재합니다.

Source: https://channeltech.naver.com/contentDetail/25

Screenshot 2024-02-09 at 9.17.54 PM.png