计算机视觉在做哪些基本任务？

最新推荐文章于 2025-06-05 11:55:02 发布

Jiraiya90

最新推荐文章于 2025-06-05 11:55:02 发布

阅读量778

点赞数 1

CC 4.0 BY-SA版权

文章标签：计算机视觉深度学习人工智能算法

本文链接：https://blog.csdn.net/qq_39987519/article/details/106988120

计算机视觉通过分类、定位、检测和分割等任务让计算机理解图像内容。分类标识图像类别，定位标出目标位置，检测同时提供类别和位置信息，分割解决像素级别的目标归属。算法实现通常基于特征提取，如人工设计或卷积神经网络。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

如何才可以让计算机理解一张图片？

计算机是无法直接理解一张图片的内容，但是我们可以制定不同的任务，根据任务需要，让计算机学会处理任务，基本任务大体可以分为四个方面：
在这里插入图片描述
一是分类（Classification），即是将图像结构化为某一类别的信息，用事先确定好的类别(string)或实例ID来描述图片。
二是定位（Localization），即标出目标在图像的什么位置，通常是以包围盒的(bounding box)形式给出。
三是检测（Detection），分类任务关心整体，给出的是整张图片的内容描述，而检测则关注特定的物体目标，要求同时获得这一目标的类别信息和位置信息，检测给出的是对图片前景和背景的理解。在目标定位中，通常只有一个或固定数目的目标，而目标检测更一般化，其图像中出现的目标种类和数目都不定。
四是分割（Segmentation），分割包括语义分割（semantic segmentation）和实例分割（instance segmentation），解决“每一个像素属于哪个目标物或场景”的问题。语义分割不区分属于相同类别的不同实例。例如，当下图图像中有五个人时，语义分割会将五个人整体的所有像素预测为“人”这个类别。与此不同的是，实例分割需要区分出哪些像素属于第一个人、哪些像素属于第二个人，哪些像素属于第三个人等。

最低0.47元/天解锁文章

200万优质内容无限畅学