深度学习(图像方向)常见名词术语

本文介绍了深度学习在图像方向的应用,包括图像分类、卷积神经网络(CNN)及其核心概念,如卷积、池化、全连接层、SoftMax等。文章还探讨了过拟合、批标准化、ResNet与GoogLeNet等网络结构,以及防止过拟合的策略。此外,提到了训练中的反向传播算法、梯度下降等问题,以及深度学习框架和未来的重要研究方向。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是对由邵天兰主讲的知乎Live 深度学习中的常见名词术语(图像方向) 的笔记整理。本文使用到了来自Live Slides以及互联网的一些图片,如有侵权将第一时间删除。
很推荐大家听听这场Live(链接在上面),通俗易懂,能构建起对图像方向深度学习的大致概念。

文章目录

从分类器开始

图像分类

本节名词列表:
分类(classify)
分类器(classifier)
MNIST
CIFAR10
ImageNet
类内方差(intra-class variance)
类间方差(inter-class variance)
函数(function)
拟合(fit)
数据驱动(data-driven)

分类(classify)

深度学习在图像方向上应用最基本的问题就是分类问题:我们给计算机看一个图像,希望它告诉我们图像里是什么。

分类器(classifier)

为了解决分类问题,我们希望能够做出分类器,而在今天,我们希望通过机器学习的手段做出分类器。

MNIST

MNIST是一个手写数字图片数据集,包含60000张训练样本和10000张测试样本。

1562694139482

CIFAR10

Cifar-10由10个分类的60000张32*32的RGB彩色图片构成,包含50000张训练样本,10000张测试(交叉验证)样本。

1562694141820

ImageNet

ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库。提供了标注完成的超过1400万的图像,其中至少一百万个图像还提供了边界框。ImageNet包含2万多个类别。

1562694143576

为了考察分类问题的难易程度,我们来看类内方差与类间方差。

类内方差(intra-class variance)

类内方差是指同一类物体之间的差异,类内方差越大,分类难度越大。例如上面的MNIST数据集中的所有“0”,虽然形态各异,但是差异较小,而上面Cifar-10数据集中的所有“猫”,因为品种、毛色等等方面的区别,就体现出较大的类内差异。显然后者较前者的类内方差更大,完成后者的分类的难度要高于前者。

类间方差(inter-class variance)

类间方差指的是不同类物体之间的差异,类间方差越大,分类难度越低。例如,区分“猫”和“房子”要比取分“猫”和“狗”要容易的多。

函数(function)

分类问题可以理解为让计算机解决类似于由“手写数字8的图片”到“标签8”的映射问题,而我们需要找出的就是完成这一映射的函数。

拟合(fit)

找到这个“函数”的过程我们通常称为拟合出这个函数。

数据驱动(data-driven)

让机器从数据中发现规则、规律,拟合出我们想要的函数,从而解决分类问题,而非使用手动的规则。

分类器入门

本节名词列表
特征(feature)
特征向量(feature vector)
特征工程(feature enginerring)

下面给出一个手动设计的“王二狗”分类器。首先输入一个“王二狗”,然后我们对“高”、“帅”、“富”三个特征进行提取,根据特征提取的结果,我们就可以做出判别。

1562694145528

特征(feature)

要对图像进行分类,本质上是要通过图像的某些特征对图像进行判别。
在王二狗的例子中,我们提取了他的三个特征:“高”、“帅”、“富”。

特征向量(feature vector)

将提取到的多个特征放在一起,就叫做特征向量。

特征工程(feature enginerring)

找到特征的过程一般称为特征工程。

图像分类的难点:特征非常难以设计

本节名词列表
初级特征(low-level feature)
高级特征(high-level feature)
手工设计的特征(hand-crafted feature)

判断王二狗只需要一个手动设计的分类器即可,而在图像的分类上则需要借助更先进的手段,例如深度学习,这是因为图像分类的一个显著难点就是特征难以提取。

初级特征(low-level feature)

图像上最基础的特征就是初级特征,例如:圆弧、线等等。

高级特征(high-level feature)

高级特征是例如“有眼睛”、“有脸”、“有腿”这样的高层次显著特征。

机器视觉的特征非常难以设计,尤其是介于初级特征与高级特征中间的中级特征,例如:眼睛、腿、脸是怎样用低级特征组合出来的。传统的机器视觉算法通过人工的方式设计了很多特征,例如HOG,SIFT,SURF等,取得了一定的成果,但是也存在瓶颈。

手工设计的特征(hand-crafted feature)
深度学习基本法:特征提取+分类

本节名词列表
可分(separable)
特征提取(feature extraction)
特征学习(feature learning)
表示学习(representation learning)

可分(separable)

例如:我与王二狗是否有钱这一特征,是容易区分的,称之为可分;而让机器看长得一模一样的双胞胎照片,则缺乏能够将二者取分开来的特征,称之为不可分。
能否找到足够的特征让机器能够完成分类是十分关键的一点。

特征提取(feature extraction)

将特征提取出来的过程。深度学习可以自动完成这一过程。

特征学习(feature learning)

深度学习具备自动完成特征提取,称其为具备特征学习的能力。

表示学习(representation learning)

用数字/向量/矩阵等方法来表达现实世界中的物体,而且这种表达方式有利于后续的分类或者其他决策问题。

特征的可分性决定分类器的上限,分类方法(神经网络?随机森林?)决定接近这个上限的程度。
深度学习的关键之处在于能够进行特征学习,自行根据训练数据学习出特征。

在分类问题上,如果数据量并不是非常大、类别不是非常多、而且具备非常好的人工提取feature,那么神经网络相对于随机森林、支持向量机等传统方法并没有非常明显的优势。而深度学习在更大的数据量下、处理更复杂的任务时,能够发挥长处,如下图所示:

1562694154312

与大脑工作机制的关系

本节名词列表
突触(synapse)
特征提取(V1, Primary Visual Cortex)

深度学习的部分做法可以从大脑的工作机制中得到印证和启发,例如:分级特征提取、从数据中学习、神经元的感受野等,但是大部分的工作仍然与人脑的关系较远。

突触(synapse)

一个神经元的输入端。

特征提取(V1, Primary Visual Cortex)

人眼看到的信息首先传到初级视皮层(V1)进行特征提取,然后再传到V2等进行更高级的特征提取。

神经网络的基本组成单元:神经元、层

神经元:从加权和开始

本节名词列表
输入(input)
输出(output)
神经元(neuron)
加权和(weighted sum)
连接权重(weights)
偏置(bias)

神经元最基本的工作原理就是加权和。
下面给出一个神经元的工作过程:
神经元
基本写法: y = x 1 w 1 + x 2 w 2 + x 3 w 3 y=x_1w_1+x_2w_2+x_3w_3 y=x1w1+x2w2+x3w3
求和写法: y = ∑ x i w i y=\sum{x_iw_i} y=xiwi
向量写法: y = x ⋅ w y=x\cdot w

### 高维特征向量相关的深度学习术语 在处理高维特征向量时,一些常见深度学习专业术语包括: #### Embedding Layer 嵌入层用于将离散输入(如单词索引)转换为密集向量表示。这些向量通常具有较低维度,能够捕捉到数据中的语义关系。 ```python from tensorflow.keras.layers import Embedding embedding_layer = Embedding(input_dim=vocab_size, output_dim=embedding_dim) ``` 此操作有助于减少原始高维空间带来的计算复杂度并提高模型性能[^1]。 #### Dimensionality Reduction 降维技术旨在降低特征向量的空间维度,同时保留尽可能多的信息。常用方法有主成分分析(PCA),线性判别分析(LDA)以及t-SNE等算法。通过这种方式可以有效应对“维度灾难”,即随着特征数量增加而导致的数据稀疏性和过拟合风险。 #### Feature Map 特征映射是指卷积神经网络(CNNs)中由滤波器作用于输入图像或其他形式的数据产生的矩阵。对于高维特征向量而言,CNN可以通过多个层次提取不同抽象级别的局部模式,从而实现更有效的表征学习[^2]。 #### High-Dimensional Sparse Representation 高维稀疏表示指的是当大多数元素接近零时所形成的非常大的向量。这种类型的表示常见于自然语言处理领域内的词袋模型(BOW)或TF-IDF加权方案,在这类情况下只有少数位置上的数值显著不同于零值。 #### Autoencoder 自编码器是一种无监督学习框架下的神经网络结构,其目标是从给定输入重建该输入本身。训练过程中会强制中间隐藏层形成压缩版的原样本表达方式——这正好适用于解决因过多冗余信息而造成的过高维度问题。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值