VLM常见的数据集和Benchmark

🏷️ 26365 📅 2025-08-21 19:21:16 👤 admin 👀 9709 ❤️ 764

本文对VLM领域多个任务的常见数据集和benchmark做了简要介绍，以方便读友看论文时参考。

⚠️注意：本文信息仍在时常更新中

常见任务和评测数据常见的多模态任务有：视觉问答VQA、视觉常识推理VCR（选择题并解释原因）、指代表达RE（给定图片和一个句子，判断句子正确还是错误）、图文检索VLR（根据文字检索图片）。生成图片类任务有：图像样式转移、文本驱动的图像生成等。

不同任务常用benchmark如下：

VLM benchmark：

MM-VetMMBenchMMBench-CNSEED-BenchLLaVA-BenchMME测幻觉：POPE其中MM-Vet归纳了VLM需要具备的6种能力，并组合出16种任务，比例如下：

Image Caption

COCOMM-IT-CapVisual Question Answering(VQA)

VQAv2VizWizGQA （自然场景图问答，有框标柱）Hateful MemePointQA（ChatSpot）COCO Text（ChatSpot）OKVQATextVQA

图片来源 OpenImages v3

训练集：21,953 张图像，34,602 个问题，验证集： 3,166 张图像， 5,000 个问题

测试集： 3,289 张图像， 5,734 个问题STVQA

数据来源：Coco-Text, Visal Genome, VizWiz, ICDAR(13+15), ImageNet, IIIT-STR

训练集：19,027张图像，26,308个问题

测试集： 2,993 张图像， 4,163个问题DocVQAOCR-VQA

207572 张图像（书的封面），超过100万个问答对 ( train : val : test = 8 : 1 : 1 )ChartQAPlotQA日常场景的那种OCR开源数据，来源是20个公开数据集，约5.6M真实的+17.9M仿真的：

https://github.com/large-ocr-model/large-ocr-model.github.io/blob/main/Data.md

视频QA

STARVisual Grounding/REC

Flickr30k(短语定位)RefCOCO、RefCOCO+、RefCOCOg：

是三个从MSCOCO中选取图像和参考对象的Visual Grounding数据集。目标属于80个目标类。RefCOCO有19,994幅图像，包含142,210个引用表达式，包含50,000个对象实例。

RefCOCO+共有19,992幅图像，包含49,856个对象实例的141,564个引用表达式。

RefCOCOg有25,799幅图像，指称表达式95,010个，对象实例49,822个。

在RefCOCO和RefCOCO+上，遵循train / val / test A / test B的拆分，testA中的图像包含多人，testB中的图像包含所有其他对象。RefCOCOg遵循train / val / test 的拆分。

RefCOCO的表达式分别为120,624 / 10,834 / 5,657 / 5,095; 框的数量分别为42,404 / 3,811 / 1,975 / 1,810

RefCOCO+的表达式分别为120,191 / 10,758 / 5,726 / 4,889; 框的数量分别为42,278 / 3,805 / 1,975 / 1,798

RefCOCOg的表达式分别为80,512 / 4,896 / 9,602; 框的数量分别为42,226 / 2,573 / 5,023

RefCOCO的查询包括方位或属性，如“中间的人”，“左边红衣服”，“蓝车”；RefCOCO+的查询不包含方位，如“手里拿着球拍”；RefCOCOg的查询长度普遍大于RefCOCO和RefCOCO+：RefCOCO、RefCOCO+、RefCOCOg的平均长度分别为3.61、3.53、8.43。

RES

PhraseCutRefCOCODetection

COCO，train和val有标注

COCO2014: train包括 82783张图，val包括 40504张图，test包括40775张图

COCO2017: train包括 118287张图，val包括 5000张图，test包括 40670张图Object365OpenImage常见训练数据LAION2B：LAION5B数据集是从网页数据Common Crawl中筛选出来的图像-文本对数据集，它包含5.85B的图像-文本对，其中文本为英文的数据量为2.32B，这就是LAION2B数据集，它是LAION5B的英文子集。著名的stable diffusion generative model训练集就包括了LAION5B。

LAION COCO: 对LAION2B中的600M 个图片，使用 BLIP L/14 and 2 CLIP versions (L/14 and RN50x64)打了COCO风格的captions标注。

← 美团外卖利润解析：精妙模式下的低利挑战卖号操作流程主要有哪些游戏账号线上出售平台分享 →

VLM常见的数据集和Benchmark

相关推荐

金助理为什么那样？“金助理为什么那样”的含义

2025年最新！粤Z车牌办理费用全解析！

《逃生2》最快通关记录玩家不到两小时"轻松"通关！

✨ 友情链接 ✨

VLM常见的数据集和Benchmark

相关推荐

金助理为什么那样？“金助理为什么那样”的含义

2025年最新！粤Z车牌办理费用全解析！

《逃生2》最快通关记录 玩家不到两小时"轻松"通关！

✨ 友情链接 ✨

《逃生2》最快通关记录玩家不到两小时"轻松"通关！