1. Introduction

- 의미적으로 다양성 있는 언어 묘사와 시각적으로 풍부한 이미지의 쌍을 수집하였습니다.
- NLV42는 29,680개의 unique한 문장과 127,502개의 images로 만든 107,292개의 captions와 images 쌍으로 구성되어 있습니다.
- 질적인 면에서 언어 기반의 데이터 분석을 실시하였고 다른 데이터셋과 비교을 때 폭넓은 representation을 성취했습니다.
- 몇몇 baseline을 구축하였고 NLVR2의 visual reasoning에서 SOTA를 달성하였습니다.
2. Related Work and Datasets
- 이미지의 문맥을 언어로 이해하는 것은 다양한 곳에서 연구되고 있습니다.
- visual question answering, caption generation, referring expression resolution, visual entailment, binary image selection
- 최근에는 언어와 비전에서 합성 데이터를 활용하여 compositional language에 초점을 맞추는 데이터셋이 각광받고 있습니다.
- NLVR2는 사람이 작성한 언어와 웹 사진 모두에 초점을 맞추었습니다. 각 문장이 다른 label을 가질 수 있어 다양한 예시가 나올 수 있습니다. VQA와 관련이 있고 이미지와 질문 둘 다를 고려하도록 성능이 잘 나오도록 합니다.
3. Data Collection
- NLVR2는 이미지들과 자연어 문장의 쌍으로 구성되어 있고, 이미지 쌍을 보고 문장이 true인지 false인지 판단하는 task입니다. Imagenet이나 COCO와 같이 객체나 그 특성에 초점이 맞춰진 이미지보다는 시각적으로 다양성 있는 이미지를 필요로 합니다

-
이미지 수집 방법
a) Find Sets of Images
- google 검색 엔진을 통해 유사한 이미지를 구합니다. Table1에 있는 heuristic을 활용하여 검색하고자 하는 키워드의 synset을 붙이고 query로 검색하여 원하는 이미지를 다양하게 다운로드합니다.
b) Image pruning
- crowdworker가 이미지가 저품질인지 확인하여 필터링합니다.
c) Set Construction
- 도토리 2개 이상을 검색했는데 1개의 도토리가 나온 이미지를 삭제하고, interesting한지, 이미지가 유사한지를 기준으로 정렬하여 하여 최종적으로 가장 왼쪽의 8개의 이미지를 뽑습니다. interesting의 여부는 table2의 criteria가 제시되어 있고 작업자들은 이러한 기준을 만족하는지 판단합니다. 이미지 셋을 선별하는 첫번째 기준은 interesting한지 여부이고 interesting한 이미지가 3장 이하이면 그 이미지 셋은 버립니다. 두번째는 유사도이고, 상위 8개의 사진이 선별되어야 합니다.
d) Sentence Writing
- 8개의 이미지에서 4쌍으로 나누어 2개는 True, 2개는 False이도록 문장을 작성합니다. 선택된 이미지 페어에서 문장 생성이 불가능할 경우가 있기 때문에 작업자에게 이미지 페어를 고를 수 있게 합니다. 문장 생성 작업이 단순한 객체의 존재 여부 등으로 그칠 수 있기 때문에 작업자에게 가이드라인을 제공하여 지켜줄 것을 당부했습니다. 이는 부록에서 추가설명합니다.
e) Validation
- 각각의 문장과 이미지 페어 데이터는 4개로 쪼개져 작업자에게 독립적으로 분배됩니다. 검증하는 사람들은 True인지 False인지 라벨링 작업을 수행하고 터무니 없는 문장들은 보고를 합니다. 문장을 작성했던 작업자와 검증 작업자의 라벨링이 일치하면 그 데이터는 검증을 통과하게 되고 그렇지 않으면 삭제됩니다.

