Flickr30k Dataset 설명

📃 요약

**이미지와 함께 이미지를 묘사하는 문장으로 구성(**sentence-based image description)되어 있는 데이터셋입니다.
온라인 사진 공유 서비스 Flickr(flickr.com)에서 수집한 31,783장의 이미지 + 각 이미지 당 5 reference **문장(총 158,915개)**으로 구성되어 있습니다.
Flickr에서 수집한 일상적인 사진(everyday activities)으로 이루어져 있습니다.
오픈소스로 공개되어 있으며, 무료이고 상대적으로 데이터셋의 크기가 작습니다.

사진 출처: Young, P., Lai, A., Hodosh, M., & Hockenmaier, J. (2014). From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions. Transactions of the Association for Computational Linguistics, 2, 67-78.

사진 출처: Young, P., Lai, A., Hodosh, M., & Hockenmaier, J. (2014). From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions. Transactions of the Association for Computational Linguistics, 2, 67-78.

📃 Flickr 데이터셋의 역사

Flick8K 데이터셋의 초기 구축

2010년 University of Illinois at Urbana-Champaign 대학에서 Collecting Image Annotations Using Amazon’s Mechanical Turk 이라는 제목의 논문을 발표합니다.

이 논문의 요지는 이미지와 그 이미지를 설명하는 문장(annotation) 데이터셋을 구축했으며, 더 좋은 품질의 데이터셋을 구축하기 위해 어떻게 노력했는지 접근을 설명한 데에 있습니다.
Amazon Mechanical Turk을 이용하여 총 8108장의 이미지와 각 이미지 당 5개의 온전한 문장(image caption) corpus를 구축했다고 합니다.

📃 요약

📃 Flickr 데이터셋의 역사

Flick8K 데이터셋의 초기 구축

논문의 핵심 과제, image annotation과 그 한계