返回笔记列表

Ref COCO系列

2026年2月10日

Benchmark Detection COCO

参考链接：https://zhuanlan.zhihu.com/p/388504127 常用的有三个数据集RefCOCO, RefCOCO+, RefCOCOg，他们的区别可以通过下面的样例理解，总体上是相同的图片，指代文本逐渐丰富： 数据划分方式上： RefCOCO和RefCOCO+包含train, val, testA, testB。testA的图片包含多个人；testB的图片包含多个除人之外的物体。同一个图片的object-expression样本对要么全在训练集，要么全在验证\测试集。 RefCOCOg包含train, val, test。是按照object进行划分的，同一个图片的object-expression样本对集合可能会在训练集一部分，在验证\测试集另一部分。 图片选择上： RefCOCO：图像包含同一类别的多个物体。 RefCOCO+：图像包含同一类别的多个物体，并且expression不能有绝对位置（e.g., left）的词。 RefCOCOg：图像包含同一类别的2-4个物体，覆盖面积超过图片面积的5% 总结 这三个数据集都是区域-描述对的格式，一个描述对应一个bbox 新的补充：Ref-L4数据集 Ref-L4的作者认为RefCOCO系列大家刷榜已经刷烂了，指标太高不利于对比模型能力，于是重新深挖了图像数据集，制作了更新、更大、更复杂的文本指代提示词，构成新的prompt-image组合 值得注意的是，Ref-L4的作者组织人力对RefCOCO的前三个数据集进行了检验，将其中一些不准的bbox删掉了，保存了其中较高质量的数据，这些检验后的数据文件均可以在Ref-L4的链接中下载到 数据格式方面，上述这个系列的格式大差不差，都是image+caption+bbox的形式

返回笔记列表