DIVE INTO DEEP LEARNING 50-55

QuantumYou

已于 2024-06-23 22:08:06 修改

阅读量771

点赞数 8

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：深度学习人工智能

于 2024-06-23 22:05:13 首次发布

本文链接：https://blog.csdn.net/QuantumYou/article/details/139884594

文章目录

50. semantic segmentation
- 50.1 Basic concepts
- 50.2 Major application
51. Transposed convolution
52. Sequence model
53. Fully convolutional neural network
- 53.1 Basic concepts
- 53.2 Characteristics and advantages
54. Language model
55. Kaggle CowBoy achieve

50. semantic segmentation

50.1 Basic concepts

语义分割是计算机视觉领域中的一项重要任务，它的目标是为图像中的每个像素分配一个类别标签，从而实现对图像的细致理解。与图像分类任务不同，图像分类只关注整幅图像属于哪个类别，而语义分割则要求对每个像素进行类别预测，从而得到像素级的分类结果。

语义分割将图片中的每个像素分类到对应的类别。

在这里插入图片描述

像素级分类：语义分割的输出是一个与输入图像大小相同的矩阵，矩阵中的每个元素（即每个像素）都对应一个类别标签。
类别识别：语义分割需要识别图像中的不同物体或区域，并为它们分配相应的类别标签。这些类别可以是天空、道路、建筑、行人等。
精细分割：与图像分割相比，语义分割更注重类别的识别，而不仅仅是将图像划分为不同的区域。因此，语义分割通常需要更精细的分割结果。
主要方法：语义分割的方法主要包括基于传统图像处理和基于深度学习的方法。传统方法通常利用颜色、纹理、形状等特征进行分割，而深度学习方法则通过训练神经网络模型来提取图像中的特征并实现像素级分类。目前，基于深度学习的语义分割方法已经取得了显著的效果，如全卷积网络（FCN）、U-Net、DeepLab等。

50.2 Major application

背景虚化：传统的背景替换往往采用绿幕。在没有绿幕的情况下传统相机可以通过光圈来实现背景虚化，对于手机等设备而言背景虚化通常使用的都是语义分割或结合图像景深信息。
路面分割：如无人驾驶时用于实时识别周围物体，实现找路的功能。

总结：语义分割在自动驾驶、医学图像处理、卫星图像分析等领域有着广泛的应用。在自动驾驶中，语义分割可以帮助车辆识别道路、行人、车辆等障碍物；在医学图像处理中，语义分割可以帮助医生识别病变区域。

语义分割与实例分割的区别

语义分割只关心像素属于哪一类，而实例分割则更进一步，如图片里有两只狗，则需要得出哪个像素属于哪一只狗。可以将其理解为目标检测的进化版本。

在这里插入图片描述

51. Transposed convolution

51.1 Basic concepts

转置卷积 ，也被称为反卷积（Deconvolution），是深度学习中的一种重要操作，主要用于实现上采样或特征图的尺寸恢复。以下是关于转置卷积的详细介绍：

上采样是图像处理中用于增加图像分辨率或恢复特征图尺寸的技术。在深度学习中，特别是在图像分割和生成模型中，上采样是一个关键步骤。

转置卷积被视为卷积操作的一种逆向过程，但其并不真正恢复原始图像或特征图的数值，而是根据卷积核大小和输出大小，恢复特征图的尺寸。
与传统的上采样方法（如最近邻插值、双线性插值等）不同，转置卷积具有可学习的参数，能够通过网络学习获取最优的上采样方式。

51.2 Major role

上采样：转置卷积可将输入的尺寸扩大，增加图像的分辨率，使其更适合某些任务，如图像分割。
特征图还原：在某些情况下，由于卷积和池化等操作，输入特征图的尺寸会减小。通过转置卷积，可以恢复特征图的尺寸，使其保持原始输入的形状。
生成模型中的应用：在生成对抗网络（GAN）等生成模型中，转置卷积用于从随机噪声生成高分辨率的图像。

51.3 Implementation steps and application areas

定义卷积核：与正常卷积操作一样，需要定义一个卷积核，其尺寸决定了转置卷积的输出尺寸。
对输入进行填充：为了保持输出与原始输入相同的尺寸，通常需要在输入周围进行填充操作。
卷积操作：使用定义的卷积核对填充后的输入进行卷积操作。
选择步长（stride）：步长的选择影响输出的尺寸，步长越大，输出尺寸越小。
去除填充：为了最终保持输出与原始输入相同的尺寸，需要去除填充部分。

生成对抗网络（GAN）：在生成器中，通过转置卷积将随机噪声逐步放大，生成复杂的图像。
图像分割：在解码器中，使用转置卷积恢复编码器输出的特征图尺寸，得到与原始图像相同尺寸的分割图。
语义分割：如FCN和U-Net等经典方法，利用转置卷积在解码器中恢复特征图尺寸，从而对原图中的每个像素进行分类。

总结

转置卷积有上采样和特征图尺寸恢复的能力。其独特的可学习参数使其在处理复杂的上采样任务时更加灵活和有效。在生成对抗网络、图像分割和语义分割等领域有着广泛的应用。

51.4 Transposed convolution

转置卷积和卷积的区别：
- 卷积不会增大输入的高宽，通常要么不变、要么减半
- 转置卷积则可以用来增大输入高宽
转置卷积的具体实现：

如图所示，input里的每个元素和kernel相乘，最后把对应位置相加，相当于卷积的逆变换

为什么称之为“转置：
- 对于卷积Y=X*W
  - 可以对W构造一个V，使得卷积等价于矩阵乘法Y’=VX’
  - 这里Y’,X’是Y,X对应的向量版本
- 转置卷积等价于Y’=VTX’
- 如果卷积将输入从（h，w）变成了（h‘，w’）
  - 同样超参数的转置卷积则从（h‘，w’）变成为（h，w）

转置卷积X’=V^T Y’

51.5 Transposed convolution is a type of convolution

在这里插入图片描述

重新排列输入和核
- 当填充为0步幅为1时：
  - 将输入填充k-1（k时核窗口）
  - 将核矩阵上下、左右翻转
  - 然后做正常卷积（填充0、步幅1）

在这里插入图片描述

当填充为p步幅为1时：
- 将输如填充k-p-1（k是核窗口）
- 将核矩阵上下、左右翻转
- 然后做正常卷积（填充0、步幅1）

在这里插入图片描述

当填充为p步幅为s时：
- 在行和列之间插入s-1行或列
- 将输如填充k-p-1（k是核窗口）
- 将核矩阵上下、左右翻转
- 然后做正常卷积（填充0、步幅1）
形状换算
- 输入高（宽）为n，核k，填充p，步幅s：
  - 转置卷积：n‘=sn+k-2p-s
  - 卷积：n’=[(n-k-2p+s)/s]向下取整
- 如果让高宽成倍增加，那么k=2p+s
同反卷积的关系
- 数学上的反卷积是指卷积的逆运算
  - 若Y=conv（X,K），那么X=deconv（Y,K）
- 反卷积很少用在深度学习中
  - 我们说的反卷积神经网络指用了转置卷积的神经网络

总结

转置卷积是一种变化了输入和核的卷积，来得到上采用的目的
不等同于数学上的反卷积操作

52. Sequence model

52.1 Sequence data

序列数据（Sequential Data）或时间序列数据（Time Series Data）是在时间顺序上收集的数据点序列。这些数据点通常是按照相等的间隔（例如，每天、每小时、每分钟等）收集的，但也可能是不规则间隔的。序列数据在许多领域都很常见，包括金融、气象、医疗、物理等。

52.1.1 Characteristics of sequence data

时间依赖性：序列数据中的每个数据点都与其在时间序列中的位置有关。因此，数据的顺序和它们之间的时间间隔是重要的。
趋势和周期性：序列数据可能包含长期趋势（例如，增长或下降）、季节性模式（例如，每年的周期性变化）或周期性波动（例如，每周的周期性变化）。
自相关性：序列数据中的连续观测值之间可能存在依赖关系。也就是说，一个观测值可能与它之前的观测值有关。

52.1.2 Analysis of sequence data

序列数据分析的目标是提取数据中隐藏的信息，例如趋势、季节性模式、周期性波动、异常值等。这可以通过多种方法来实现，包括：

可视化：通过图表（如折线图、柱状图、箱线图等）来直观地展示序列数据。
统计方法：使用统计测试（如相关性分析、回归分析、方差分析等）来量化数据中的关系。
时间序列分析：使用专门的时间序列模型（如ARIMA模型、SARIMA模型、指数平滑法等）来预测未来的值或解释过去的行为。
机器学习：使用机器学习算法（如循环神经网络RNN、长短时记忆网络LSTM等）来处理和分析复杂的序列数据。

52.1.3 Application of sequence data

序列数据在许多实际应用中都很重要，例如：

金融：股票价格、汇率、债券收益率等金融数据通常是序列数据，可以用于预测未来的市场走势或进行风险管理。
气象：温度、降雨量、风速等气象数据是序列数据，可以用于预测天气模式或气候变化。
医疗：患者的生命体征（如心率、血压、体温等）是序列数据，可以用于监测健康状况或预测疾病进程。
物理：地震活动、太阳辐射、海洋温度等物理现象产生的数据也是序列数据，可以用于理解自然规律和预测潜在风险。

实际中很多数据是有时序的

电影的评价随时间变化而变化
音乐、文本、语言和视频都是连续的
预测明天的股价要比填补昨天遗失的股价更困难

52.1.4 Statistical tools

统计工具在机器学习中扮演着至关重要的角色，它们帮助数据科学家和机器学习工程师处理、分析和解释数据，以构建和优化模型。

在这里插入图片描述

描述性统计工具：
- 这类工具用于描述数据集的基本特征，如集中趋势（平均值、中位数、众数）、离散程度（方差、标准差）、分布形状（偏度、峰度）等。
- 例如，在机器学习的数据预处理阶段，描述性统计工具可以帮助我们了解数据的整体情况，发现数据中的异常值或缺失值，并进行相应的处理。
假设检验工具：
- 假设检验是统计学中的一种重要方法，用于判断样本数据是否支持关于总体参数的某个假设。
- 在机器学习中，假设检验工具可以帮助我们评估模型的性能是否显著优于某个基准模型，或者判断某个特征是否对模型性能有显著影响。
相关性分析工具：
- 相关性分析用于研究两个或多个变量之间的关系强度和方向。
- 在机器学习中，相关性分析工具可以帮助我们理解特征之间的相关性，避免在模型中包含高度相关的特征，从而提高模型的泛化能力。
特征选择工具：
- 特征选择是机器学习中的一个重要步骤，旨在从原始特征集中选择出与目标变量最相关的特征子集。
- 统计工具如卡方检验、信息增益、互信息等可以帮助我们评估特征与目标变量之间的相关性，从而进行特征选择。
模型评估工具：
- 模型评估是机器学习中的一个关键步骤，用于评估模型的性能并选择合适的模型。
- 统计工具如混淆矩阵、准确率、召回率、F1分数、AUC-ROC曲线等可以帮助我们全面评估模型的性能。
机器学习库和框架：
- 许多机器学习库和框架都内置了丰富的统计工具，如Scikit-Learn、TensorFlow、PyTorch等。
- 这些库和框架提供了各种统计函数和算法，方便用户进行数据处理、特征工程、模型训练和评估等任务。

52.1.5 Sequence model introduce

在这里插入图片描述

对条件概率建模

在这里插入图片描述

52.2 Option A: Markov Hypothesis

在这里插入图片描述

假设当前数据只跟τ个过去数据点相关

在这里插入图片描述

52.3 Option B: latent variable model

在这里插入图片描述

潜变量模型是一种用于解释和预测观察变量（即可以直接测量的变量）之间关系的统计方法。它基于的假设是，存在一些不能直接观察但可以通过其他观察变量推断出来的变量（即潜变量）。

潜变量的定义：
- 潜变量是那些不能直接观测，但可以通过数学模型和观察到的其他变量进行推断的变量。
- 潜变量模型旨在通过潜在变量来解释观察变量之间的关系。
潜变量模型的结构：
- 潜变量模型通常包含两部分：潜变量（通常表示为h_t）和观察变量（通常表示为x_t）。
- 在模型中，潜变量h_t用于表示过去的信息，它是基于之前的观察变量x_1, …, x_{t-1}的函数，即h_t = f(x_1, …, x_{t-1})。
- 观察变量x_t则与潜变量h_t有关，即x_t = p(x_t | h_t)，其中p表示条件概率。
潜变量模型的应用：
- 潜变量模型在多个领域都有应用，包括心理学、经济学和机器学习等。
- 在心理学中，潜变量可能代表某种心理状态或特质，如“五大人格特质”。
- 在经济学中，潜变量可能代表生活质量、商业信心等无法直接衡量的变量。
潜变量的类型：
- 潜变量可分为内生潜变量和外生潜变量。
  - 外生潜变量是在模型中不受其他变量影响但影响其他变量的变量。
  - 内生潜变量是在模型中总会受到一个其他变量影响的变量。
潜变量模型的推断方法：
- 推断潜变量的常用方法包括隐马尔可夫模型、因子分析、主成分分析、偏最小二乘回归等。
- 贝叶斯统计方法也常用于推断潜变量。
潜变量模型的分类：
- 根据潜变量的类型，潜变量模型可分为离散型潜变量模型和连续型潜变量模型。