这四项技术都属于计算机视觉(Computer Vision)的范畴,但它们解决的问题和输出的结果各不一样。
一、图像分类 (Image Classification)
核心目标:给整张图片打一个或多个 “标签”。
- 通俗理解:这是最基础、最简单的任务。它只关心图片的整体内容,回答 “这张图是什么?” 的问题。
- 关键输出:一个或多个类别标签,一般还带有置信度。
- 例子:看到一张图片,系统判断它是 “猫”、“狗”、“汽车” 或 “景色”。识别一张 X 光片是否显示 “肺炎” 特征。判断一张图片的内容是 “安全” 还是 “包含暴力元素”。
- 特点:不关心物体在图片中的具体位置,也不关心图片里有多少个物体。它只对整张图片进行全局分析。
二、图像检测 (Object Detection)
核心目标:在图片中找到特定的物体,并指出它们的位置和类别。
- 通俗理解:这项技术不仅要知道图片里 “有什么”,还要知道 “它们在哪里”。它会在图片上画框,框住每个物体。
- 关键输出:一个列表,列表中的每个元素包含:类别标签:列如 “猫”、“狗”。边界框 (Bounding Box):用坐标(x1, y1, x2, y2)表明物体在图片中的矩形位置。置信度:模型对这个检测结果的信任程度。
- 例子:在一张街景图中,检测出所有的 “行人”、“车辆”、“交通灯”,并用框标出它们。人脸识别打卡,在画面中找到人脸并框出。自动驾驶汽车的视觉系统,实时检测前方道路上的各种物体。
- 特点:解决了 “是什么” 和 “在哪里” 的问题,但它给出的位置是一个粗糙的矩形框,不关心物体内部的细节。
三、语义分割 (Semantic Segmentation)
核心目标:给图片中的每个像素点分配一个 “类别标签”。
- 通俗理解:这好比是给图片做 “像素级别的分类” 或 “上色”。它不满足于用框框住物体,而是要准确地知道物体的轮廓,回答 “图片中的每个像素属于哪个类别?” 的问题。
- 关键输出:一个与原图大小完全一样的 “分割掩码”(mask)。掩码中的每个像素值代表了原图对应位置像素的类别。
- 例子:在一张自动驾驶场景图中,将画面中的 “道路”、“车辆”、“行人”、“天空”、“树木” 等每个像素都区分开来,并用不同颜色表明。在医学影像中,准确分割出 “肿瘤” 的区域,以便医生计算其体积。
- 特点:能够提供超级精细的物体轮廓信息。但它不区分同一类别的不同个体。例如,图中有三只猫,语义分割会把它们都标记为 “猫” 类,但无法告知你哪只是第一只,哪只是第二只。
四、实例分割 (Instance Segmentation)
核心目标:给图片中的每个 “个体” 物体进行像素级的分割,并识别其类别。
- 通俗理解:这是 “检测” 和 “语义分割” 的结合体。它既要像检测那样,区分出不同的个体(实例),又要像语义分割那样,准确到像素级别。
- 关键输出:与语义分割类似,也是一个或多个分割掩码。但不同的是:每个掩码只对应一个物体实例。每个掩码都会被赋予一个类别标签。
- 例子:在一张有三只猫的图片中,实例分割会生成三个独立的掩码,分别准确地勾勒出每只猫的轮廓,并都标记为 “猫” 类。这样系统就能知道 “这里有三只猫,并且它们各自的形状和位置是什么”。在机器人抓取任务中,需要准确知道每个待抓取物体的轮廓,以避免碰撞。
- 特点:是目前最精细、最复杂的任务之一。它完美地解决了 “是什么”、“在哪里” 以及 “它的准确形状是什么” 这三个问题。
总结对比
|
技术 |
核心问题 |
通俗比喻 |
输出结果 |
关键区别 |
|
图像分类 |
这张图是什么? |
给照片贴标签 |
类别标签 |
只关心整体内容,不关心位置和数量。 |
|
图像检测 |
图中有什么?在哪里? |
在照片上用方框圈出物体 |
带类别标签的边界框 |
关心物体的位置,但位置是粗糙的矩形。 |
|
语义分割 |
图中每个像素属于什么类别? |
给照片按类别准确上色 |
像素级的类别掩码 |
关心每个像素的类别,但不区分同一类别的不同个体。 |
|
实例分割 |
图中每个物体是什么?它的准确形状是什么? |
给照片中的每个物体单独 “抠图” 并贴标签 |
带类别标签的实例掩码 |
既关心类别,也关心每个独立物体的准确轮廓。 |
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...