返回笔记列表

Ref COCO系列


参考链接:https://zhuanlan.zhihu.com/p/388504127 常用的有三个数据集RefCOCO, RefCOCO+, RefCOCOg,他们的区别可以通过下面的样例理解,总体上是相同的图片,指代文本逐渐丰富: RefCOCO|640x502

数据划分方式上:

  • RefCOCO和RefCOCO+包含train, val, testA, testB。testA的图片包含多个人;testB的图片包含多个除人之外的物体。同一个图片的object-expression样本对要么全在训练集,要么全在验证\测试集
  • RefCOCOg包含train, val, test。是按照object进行划分的,同一个图片的object-expression样本对集合可能会在训练集一部分,在验证\测试集另一部分

图片选择上:

  • RefCOCO:图像包含同一类别的多个物体。
  • RefCOCO+:图像包含同一类别的多个物体,并且expression不能有绝对位置(e.g., left)的词。
  • RefCOCOg:图像包含同一类别的2-4个物体,覆盖面积超过图片面积的5%

总结

这三个数据集都是区域-描述对的格式,一个描述对应一个bbox

新的补充:Ref-L4数据集

Ref-L4的作者认为RefCOCO系列大家刷榜已经刷烂了,指标太高不利于对比模型能力,于是重新深挖了图像数据集,制作了更新、更大、更复杂的文本指代提示词,构成新的prompt-image组合 值得注意的是,Ref-L4的作者组织人力对RefCOCO的前三个数据集进行了检验,将其中一些不准的bbox删掉了,保存了其中较高质量的数据,这些检验后的数据文件均可以在Ref-L4的链接中下载到

数据格式方面,上述这个系列的格式大差不差,都是image+caption+bbox的形式