1. Introduction

Untitled

  1. 의미적으로 다양성 있는 언어 묘사와 시각적으로 풍부한 이미지의 쌍을 수집하였습니다.
  2. NLV42는 29,680개의 unique한 문장과 127,502개의 images로 만든 107,292개의 captions와 images 쌍으로 구성되어 있습니다.
  3. 질적인 면에서 언어 기반의 데이터 분석을 실시하였고 다른 데이터셋과 비교을 때 폭넓은 representation을 성취했습니다.
  4. 몇몇 baseline을 구축하였고 NLVR2의 visual reasoning에서 SOTA를 달성하였습니다.

2. Related Work and Datasets

3. Data Collection

Untitled

Untitled

Untitled