【转】目标检测两种常用的数据集COCO和VOC

小渣渣 · 发表于 2024-10-30 22:35:37

要解决的问题：

什么是数据集？
COCO和VOC是什么？
它们分别是什么格式？

问题1：什么是数据集？

数据集，其字面意思，就是由数据组成的集合。
数据集通常包含了用来训练和验证模型的样本数据，这些数据可以是数字、文本、图像、音频或视频等形式的数据。
数据集用于训练算法模型，使模型能够学习到数据中的模式和规律。
数据集通常被划分为训练集、验证集和测试集三个子集。
训练集用于训练机器学习模型，验证集用于选择和调整模型的超参数和结构，测试集用于评估模型的性能和准确度。
训练集、验证集和测试集通俗理解：
训练集：就像给学生上课一样，我们用这些数据来教会机器学习模型如何识别和处理信息。
验证集：就像给学生做小测验，用这些数据来检查模型学得怎么样，看看需要调整哪些地方。
测试集：就像给学生做期末考试，用这些数据来最终评定模型的成绩，看它学得好不好。

问题2：COCO和VOC是什么？

COCO（Common Objects in Context）和VOC（Visual Object Classes）是计算机视觉领域中两个著名的数据集，它们被广泛用于图像识别和目标检测任务。

创建：

COCO数据集由微软研究院创建。
VOC数据集由英国牛津大学的计算机视觉小组创建。

介绍：

COCO是一个大规模的图像识别、分割、字幕生成数据集。
它包含超过91,000张图像，每张图像都有详细的标签和分割。
COCO数据集强调对象在自然场景中的上下文，即对象通常与其他对象一起出现，并且有复杂的场景和背景。
COCO数据集通常用于评估目标检测、图像分割、图像字幕生成等任务的性能。
VOC是一个较早的图像识别和目标检测数据集。
它包含大约20个类别的20,000张图像，每张图像都有精确的区域标注和类别标签。
VOC数据集更侧重于类别的识别和对象的检测，而不是图像的上下文。
VOC挑战赛（VOC Challenge）是计算机视觉领域的一个重要竞赛，它推动了目标检测和图像识别技术的发展。

特点：

VOC 数据集的特点在于它提供了非常精确的标注，特别是在目标检测任务中。每张图片中的对象都被用矩形框精确地标注出来，并且每个对象都有一个类别标签。这种精确的标注使得VOC数据集非常适合用来训练和测试目标检测算法，因为它们可以学习如何准确地识别和定位图像中的对象。
COCO 数据集虽然也提供了详细的标注，但它的重点是更广泛的图像识别和场景理解。COCO中的标注包括对象检测、分割和字幕生成等。这意味着COCO的数据不仅包括对象的矩形框，还包括更复杂的场景信息和对象之间的关系。因此，COCO数据集更适合用来训练和测试更高级的计算机视觉任务，比如场景理解、图像字幕生成等。

总结：VOC能更快速准确地识别和定位，主要是因为它的标注方式非常适合目标检测任务，而COCO则提供了更丰富的场景信息，适合更复杂的视觉任务。两者各有侧重点，都是计算机视觉研究中非常重要的数据集。

问题3：它们分别是什么格式？

VOC数据集的标注格式是XML。每个图像对应一个XML文件。
COCO数据集的标注格式是JSON或txt。所有的目标框标注都在同一个JSON或txt里。

原文：超链接登录可见。

小渣渣 · 发表于 2024-11-1 11:39:47

coco 数据集是一个json文件，一共包括5个部分。

{
"info": info,             # 数据集的基本信息
"licenses": [license],    # 许可证
"images": [image],       #  图片信息，名字和宽高
"annotations": [annotation],  # 标注信息
"categories": [category] # 标签信息
}
info{                         # 数据集信息描述
"year": int,             # 数据集年份
"version": str,          # 数据集版本
"description": str,       # 数据集描述
"contributor": str,       # 数据集提供者
"url": str,                # 数据集下载链接
"date_created": datetime, # 数据集创建日期
}
license{
"id": int,
"name": str,
"url": str,
}
image{    # images是一个list,存放所有图片(dict)信息。image是一个dict,存放单张图片信息
"id": int,                # 图片的ID编号（每张图片ID唯一）
"width": int,             # 图片宽
"height": int,             # 图片高
"file_name": str,          # 图片名字
"license": int,          # 协议
"flickr_url": str,       # flickr链接地址
"coco_url": str,          # 网络连接地址
"date_captured": datetime,  # 数据集获取日期
}
annotation{ # annotations是一个list,存放所有标注(dict)信息。annotation是一个dict,存放单个目标标注信息。
"id": int,                # 目标对象ID（每个对象ID唯一），每张图片可能有多个目标
"image_id": int,          # 对应图片ID
"category_id": int,       # 对应类别ID，与categories中的ID对应
"segmentation": RLE or [polygon], # 实例分割，对象的边界点坐标[x1,y1,x2,y2,....,xn,yn]
"area": float,             # 对象区域面积
"bbox": [xmin,ymin,width,height], # 目标检测，对象定位边框[x,y,w,h]
"iscrowd": 0 or 1,       # 表示是否是人群
}
categories{                   # 类别描述
"id": int,                # 类别对应的ID（0默认为背景）
"name": str,             # 子类别名字
"supercategory": str,    # 主类别名字
}

参考：

超链接登录可见。
超链接登录可见。
超链接登录可见。
超链接登录可见。

小渣渣 · 发表于 2024-11-11 09:16:46

数据COCO集格式：超链接登录可见。

小渣渣 · 发表于 2024-11-11 11:43:50

.NET/C# 计算多边形的面积
https://www.itsvse.com/thread-10870-1-1.html

		自动登录	找回密码
密码			注册[Register]

【转】目标检测两种常用的数据集COCO和VOC

相关帖子