计算机视觉在做哪些基本任务?

计算机视觉通过分类、定位、检测和分割等任务让计算机理解图像内容。分类标识图像类别,定位标出目标位置,检测同时提供类别和位置信息,分割解决像素级别的目标归属。算法实现通常基于特征提取,如人工设计或卷积神经网络。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

如何才可以让计算机理解一张图片?

  计算机是无法直接理解一张图片的内容,但是我们可以制定不同的任务,根据任务需要,让计算机学会处理任务,基本任务大体可以分为四个方面:
在这里插入图片描述
  一是分类(Classification),即是将图像结构化为某一类别的信息,用事先确定好的类别(string)或实例ID来描述图片。
  二是定位(Localization),即标出目标在图像的什么位置,通常是以包围盒的(bounding box)形式给出。
  三是检测(Detection),分类任务关心整体,给出的是整张图片的内容描述,而检测则关注特定的物体目标,要求同时获得这一目标的类别信息和位置信息,检测给出的是对图片前景和背景的理解。在目标定位中,通常只有一个或固定数目的目标,而目标检测更一般化,其图像中出现的目标种类和数目都不定。
  四是分割(Segmentation),分割包括语义分割(semantic segmentation)和实例分割(instance segmentation),解决“每一个像素属于哪个目标物或场景”的问题。语义分割不区分属于相同类别的不同实例。例如,当下图图像中有五个人时,语义分割会将五个人整体的所有像素预测为“人”这个类别。与此不同的是,实例分割需要区分出哪些像素属于第一个人、哪些像素属于第二个人,哪些像素属于第三个人等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值