返回笔记列表Ref COCO系列2026年2月10日BenchmarkDetectionCOCO参考链接:https://zhuanlan.zhihu.com/p/388504127 常用的有三个数据集RefCOCO, RefCOCO+, RefCOCOg,他们的区别可以通过下面的样例理解,总体上是相同的图片,指代文本逐渐丰富: 数据划分方式上: RefCOCO和RefCOCO+包含train, val, testA, testB。testA的图片包含多个人;testB的图片包含多个除人之外的物体。同一个图片的object-expression样本对要么全在训练集,要么全在验证\测试集。 RefCOCOg包含train, val, test。是按照object进行划分的,同一个图片的object-expression样本对集合可能会在训练集一部分,在验证\测试集另一部分。 图片选择上: RefCOCO:图像包含同一类别的多个物体。 RefCOCO+:图像包含同一类别的多个物体,并且expression不能有绝对位置(e.g., left)的词。 RefCOCOg:图像包含同一类别的2-4个物体,覆盖面积超过图片面积的5% 总结 这三个数据集都是区域-描述对的格式,一个描述对应一个bbox 新的补充:Ref-L4数据集 Ref-L4的作者认为RefCOCO系列大家刷榜已经刷烂了,指标太高不利于对比模型能力,于是重新深挖了图像数据集,制作了更新、更大、更复杂的文本指代提示词,构成新的prompt-image组合 值得注意的是,Ref-L4的作者组织人力对RefCOCO的前三个数据集进行了检验,将其中一些不准的bbox删掉了,保存了其中较高质量的数据,这些检验后的数据文件均可以在Ref-L4的链接中下载到 数据格式方面,上述这个系列的格式大差不差,都是image+caption+bbox的形式返回笔记列表
参考链接:https://zhuanlan.zhihu.com/p/388504127 常用的有三个数据集RefCOCO, RefCOCO+, RefCOCOg,他们的区别可以通过下面的样例理解,总体上是相同的图片,指代文本逐渐丰富:
数据划分方式上:
图片选择上:
总结
这三个数据集都是区域-描述对的格式,一个描述对应一个bbox
新的补充:Ref-L4数据集
Ref-L4的作者认为RefCOCO系列大家刷榜已经刷烂了,指标太高不利于对比模型能力,于是重新深挖了图像数据集,制作了更新、更大、更复杂的文本指代提示词,构成新的prompt-image组合 值得注意的是,Ref-L4的作者组织人力对RefCOCO的前三个数据集进行了检验,将其中一些不准的bbox删掉了,保存了其中较高质量的数据,这些检验后的数据文件均可以在Ref-L4的链接中下载到
数据格式方面,上述这个系列的格式大差不差,都是image+caption+bbox的形式