计算机视觉与深度学习第八章:视觉识别

本文详细梳理了计算机视觉领域的核心任务,包括语义分割的滑动窗口和全卷积方法,以及反池化和转置卷积的优化技巧。接着探讨了目标检测,从单目标到多目标检测,解析了R-CNN系列模型及ROIAlign等关键概念。最后介绍了实例分割,特别是Mask R-CNN的工作原理。同时列举了多个开源框架供学习者实践。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文按照北京邮电大学计算机学院鲁鹏老师的计算机视觉与深度学习课程按章节进行整理,需要的同学可借此系统学习该课程详尽知识~



视觉识别任务分类

在这里插入图片描述
分类任务前面章节已有介绍,本节不再赘述。

语义分割

语义分割定义

在这里插入图片描述

语义分割思路

1.滑动窗口

在这里插入图片描述

2.全卷积

在这里插入图片描述

全卷积优化

在这里插入图片描述

1)反池化操作: Unpooling

在这里插入图片描述

2)反池化操作: Max Unpooling

在这里插入图片描述

3)转置卷积:Transpose Convolution

回顾卷积操作
在这里插入图片描述
转置卷积操作
在这里插入图片描述
重叠区域求和一维示例
在这里插入图片描述

目标检测

目标检测定义

在这里插入图片描述

目标检测类别

1.单目标检测

在这里插入图片描述

2.多目标检测

在这里插入图片描述

CNN

在这里插入图片描述

R-CNN

在这里插入图片描述

Fast R-CNN

在这里插入图片描述
重点知识
区域裁剪:ROI Pool
在这里插入图片描述
区域裁剪:ROI Align
在这里插入图片描述

Faster R-CNN

在这里插入图片描述
在这里插入图片描述

重点知识
区域建议:Region Proposal Network
在这里插入图片描述
在这里插入图片描述
问题:是否必须采用两个阶段范式完成目标检测?

一阶段目标检测: YOLO / SSD / RetinaNet
在这里插入图片描述

目标检测总结

在这里插入图片描述
在这里插入图片描述

实例分割

实例分割定义

在这里插入图片描述

实例分割思路

Mask R-CNN

在这里插入图片描述
在这里插入图片描述

附:Open Source Frameworks

TensorFlow DetectionAPI:Faster RCNN, SSD, RFCN, Mask R-CNN

Caffe2 Detectron:Mask R-CNN, RetinaNet, Faster R-CNN, RPN, Fast R-CNN, R-FCN

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值