
计算机视觉专题
计算机视觉研究如何让计算机从图像和视频中获取高级、抽象的信息。本专题收录深度学习中的计算机视觉处理学习过程和心得体会。
星尘 StarDust
Datawhale团队成员,开源贡献者,一个不断寻找自我的追光者。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Datawhale 零基础入门CV赛事-Task01 赛题理解
1 赛题理解赛题名称:零基础入门CV之街道字符识别赛题目标:通过这道赛题可以引导大家走入计算机视觉的世界,主要针对竞赛选手上手视觉赛题,提高对数据建模能力。赛题任务:赛题以计算机视觉中字符识别为背景,要求选手预测街道字符编码,这是一个典型的字符识别问题。为了简化赛题难度,赛题数据采用公开数据集SVHN,因此大家可以选择很多相应的paper作为思路参考。1.1 赛题数据赛题以街道字符为为赛题数据,数据集报名后可见并可下载,该数据来自收集的SVHN街道字符,并进行了匿名采样处理。注意: 按照原创 2020-05-20 22:14:42 · 322 阅读 · 0 评论 -
计算机视觉基础(十)—— HOG特征描述算子之行人检测
本次任务将学习一种在深度学习之前非常流行的图像特征提取技术——方向梯度直方图(Histogram of Oriented Gradients),简称HOG特征。HOG特征是在2005年CVPR的会议发表,在图像手工特征提取方面具有里程碑式的意义,当时在行人检测领域获得了极大成功。学习HOG特征的思想也有助于我们很好地了解传统图像特征描述和图像识别方法,本次任务我们将学习到HOG背后的设计原理,和opencv的实现。1 HOG特征简介HOG特征是一种图像局部特征,其基本思路是对图像局部的梯度幅值和方向原创 2020-07-06 15:54:06 · 722 阅读 · 0 评论 -
计算机视觉基础(九)—— Haar特征描述算子之人脸检测
Haar-like特征最早是由Papageorgiou等应用于人脸表示,在2001年,Viola和Jones两位大牛发表了经典的《Rapid Object Detection using a Boosted Cascade of Simple Features》和《Robust Real-Time Face Detection》,在AdaBoost算法的基础上,使用Haar-like小波特征和积分图方法进行人脸检测,他俩不是最早使用提出小波特征的,但是他们设计了针对人脸检测更有效的特征,并对AdaBoost原创 2020-07-02 22:41:37 · 1132 阅读 · 0 评论 -
计算机视觉基础(八)—— LBP特征描述算子之人脸检测
关于Datawhale:Datawhale是一个专注于数据科学与AI领域的开源组织,汇集了众多领域院校和知名企业的优秀学习者,聚合了一群有开源精神和探索精神的团队成员。Datawhale以“for the learner,和学习者一起成长”为愿景,鼓励真实地展现自我、开放包容、互信互助、敢于试错和勇于担当。同时Datawhale 用开源的理念去探索开源内容、开源学习和开源方案,赋能人才培养,助力人才成长,建立起人与人,人与知识,人与企业和人与未来的联结。...原创 2020-06-28 22:46:27 · 641 阅读 · 0 评论 -
计算机视觉基础(七)—— 一文解析Harris角点检测
在图像处理领域中,特征点又被称为兴趣点或者角点,它通常具有旋转不变性和光照不变性和视角不变性等优点,是图像的重要特征之一,常被应用到目标匹配、目标跟踪、三维重建等应用中。点特征主要指图像中的明显点,如突出的角点、边缘端点、极值点等等,用于点特征提取的算子称为兴趣点提取(检测)算子,常用的有Harris角点检测、FAST特征检测、SIFT特征检测及SURF特征检测。1 什么是角点检测1.1 角点定义:角点就是轮廓之间的交点。如果从数字图像处理的角度来描述就是:像素点附近区域像素无论是在梯度方向、还是在原创 2020-06-24 23:13:45 · 931 阅读 · 0 评论 -
Datawhale 零基础入门CV赛事-Task05 小白调参之路
import os, sys, glob, shutil, jsonos.environ["CUDA_VISIBLE_DEVICES"] = '0'import cv2from PIL import Imageimport numpy as npfrom tqdm import tqdm, tqdm_notebookimport torchtorch.manual_seed(0)torch.backends.cudnn.deterministic = Falsetorch.backe原创 2020-06-02 18:18:11 · 1351 阅读 · 0 评论 -
Datawhale 零基础入门CV赛事-Task04 模型训练与验证
在上一章节我们构建了一个简单的CNN进行训练,并可视化了训练过程中的误差损失和第一个字符预测准确率,但这些还远远不够。一个成熟合格的深度学习训练流程至少具备以下功能:在训练集上进行训练,并在验证集上进行验证;模型可以保存最优的权重,并读取权重;记录下训练集和验证集的精度,便于调参。4 模型训练与验证为此本章将从构建验证集、模型训练和验证、模型保存与加载和模型调参几个部分讲解,在部分小节中将会结合Pytorch代码进行讲解。4.1 构造验证集在机器学习模型(特别是深度学习模型)的训练过程中,原创 2020-05-30 23:21:48 · 715 阅读 · 0 评论 -
Datawhale 零基础入门CV赛事-Task03 利用卷积神经网络建立字符识别模型
在前面的章节,讲解了赛题的背景知识和赛题数据的读取。本章开始构建一个字符识别模型,基于对赛题理解本章将构建一个定长多字符分类模型。3.1 卷积神经网络-- CNN介绍卷积神经网络(Convolutional Neural Network, CNN)是一类特殊的人工神经网络,是深度学习中重要的一个分支。CNN在很多领域都表现优异,精度和速度比传统计算学习算法高很多。特别是在计算机视觉领域,CNN是解决图像分类、图像检索、物体检测和语义分割的主流模型。CNN每一层由众多的卷积核组成,每个卷积核对输入的像素原创 2020-05-26 22:58:54 · 900 阅读 · 0 评论 -
Datawhale 零基础入门CV赛事-Task02 数据读取与数据扩增
本部分主要内容为数据读取、数据扩增方法和Pytorch读取赛题数据三个部分组成。2.1 图像读取由于赛题数据是图像数据,赛题的任务是识别图像中的字符。因此我们首先需要完成对数据的读取操作,在Python中有很多库可以完成数据读取的操作,比较常见的有Pillow和OpenCV。2.2.1 PillowPillow是Python图像处理函式库(PIL)的一个分支。Pillow提供了常见的图像读取和处理的操作,而且可以与ipython notebook无缝集成,是应用比较广泛的库。效果代码原创 2020-05-23 23:33:55 · 687 阅读 · 0 评论 -
计算机视觉基础(六)——图像边缘检测
1 简介1.1 什么是边缘?边缘是图像强度函数快速变化的地方。1.2 如何检测边缘?为了检测边缘,我们需要检测图像中的不连续性,可以使用导数来检测不连续性。如上图所示,上图的第一幅图表示一张数字图片,我们对水平红线处进行求导,便可得到上图二中的关系,可以看到在边缘处有着较大的跳变。但是,导数也会受到噪声的影响,因此建议在求导数之前先对图像进行平滑处理。然后我们可以使用遮罩使用卷积来检测...原创 2020-05-01 23:45:58 · 3369 阅读 · 0 评论 -
计算机视觉基础(五)——图像分割/二值化
图像阈值化分割是一种传统的最常用的图像分割方法,因其实现简单、计算量小、性能较稳定而成为图像分割中最基本和应用最广泛的分割技术。它特别适用于目标和背景占据不同灰度级范围的图像。它不仅可以极大的压缩数据量,而且也大大简化了分析和处理步骤,因此在很多情况下,是进行图像分析、特征提取与模式识别之前的必要的图像预处理过程。图像阈值化的目的是要按照灰度级,对像素集合进行一个划分,得到的每个子集形成一个与现实...原创 2020-04-29 23:07:14 · 2528 阅读 · 1 评论 -
计算机视觉基础(四)——图像滤波
图像的实质是一种二维信号,滤波是信号处理中的一个重要概念。在图像处理中,滤波是一种非常常见的技术,它们的原理非常简单,但是其思想却十分值得借鉴,滤波是很多图像算法的前置步骤或基础,掌握图像滤波对理解卷积神经网络也有一定帮助。均值滤波、方框滤波1. 滤波分类线性滤波: 对邻域中的像素的计算为线性运算时,如利用窗口函数进行平滑加权求和的运算,或者某种卷积运算,都可以称为线性滤波。常见的线性滤波有...原创 2020-04-27 23:44:24 · 1405 阅读 · 0 评论 -
计算机视觉基础(三)——彩色空间互转
图像彩色空间互转在图像处理中应用非常广泛,而且很多算法只对灰度图有效;另外,相比RGB,其他颜色空间(比如HSV、HSI)更具可分离性和可操作性,所以很多图像算法需要将图像从RGB转为其他颜色空间,所以图像彩色互转是十分重要和关键的。1 算法理论介绍1.1 RGB与灰度图互转RGB(红绿蓝)是依据人眼识别的颜色定义出的空间,可表示大部分颜色。但在科学研究一般不采用RGB颜色空间,因为它的细节...原创 2020-04-25 22:42:34 · 894 阅读 · 2 评论 -
计算机视觉基础(二)——图像几何变换
简介几何变换的原理大多都是相似,只是变换矩阵不同,因此,我们以最常用的平移和旋转为例进行学习。在深度学习领域,我们常用平移、旋转、镜像等操作进行数据增广;在传统CV领域,由于某些拍摄角度的问题,我们需要对图像进行矫正处理,而几何变换正是这个处理过程的基础,因此了解和学习几何变换也是有必要的。这次我们带着几个问题进行,以旋转为例:1:变换的形式(公式)是什么?2:旋转中心是什么?毕竟以不同...原创 2020-04-23 23:46:43 · 1816 阅读 · 0 评论 -
计算机视觉基础(一)——图像插值算法
1.1 简介 在图像处理中,平移变换、旋转变换以及放缩变换是一些基础且常用的操作。这些几何变换并不改变图象的象素值,只是在图象平面上进行象素的重新排列。在一幅输入图象[u,v][u,v][u,v]中,灰度值仅在整数位置上有定义。然而,输出图象[x,y]的灰度值一般由处在非整数坐标上的(u,v)(u,v)(u,v)值来决定。这就需要插值算法来进行处理,常见的插值算法有最近邻插值、双线性插值和三次...原创 2020-04-21 16:01:59 · 3002 阅读 · 0 评论 -
编程手记--逻辑回归实现MNIST数据集分类
1 MNIST手写数据集经典的MNIST数据集包含了大量的手写数字。十几年来,来自机器学习、机器视觉、人工智能、深度学习领域的研究员们把这个数据集作为衡量算法的基准之一。你会在很多的会议,期刊的论文中发现这个数据集的身影。实际上,MNIST数据集已经成为算法作者的必测的数据集之一。有人曾调侃道:“如果一个算法在MNIST上不work, 那么它就根本没法用;而如果它在MNIST上work, 它在其...原创 2020-04-01 18:11:05 · 2282 阅读 · 0 评论