
深度学习从0到1
文章平均质量分 94
从头开始学习机器学习,适合小白和新手!
冒冒菜菜
抖音同名,欢迎大家多多关注抖音。
中国矿业大学计科学硕!分享学习中的记录。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
深度学习(11)---Swin Transformer详解
(2) Swin-Transformer使用窗口多头自注意力,将特征图划成多个不相交的区域,然后在每个窗口里进行自注意力计算,只要窗口大小固定,自注意力的计算复杂度也是固定的,那么总的计算复杂度就是图像尺寸的线性倍数,而不是Vit对整个特征图进行全局自注意力计算,这样就减少了计算量,但是也隔绝了不同窗口之间的信息交流,随之作者提出后文的移动窗口自注意力计算(Shifted Windows Multi-Head Self-Attention(SW-MSA))。W-MSA是基于窗口的注意力计算。原创 2024-09-01 00:01:32 · 1230 阅读 · 0 评论 -
深度学习(10)---Vision Transformer详解
1. Vision Transformer(ViT)是一种基于Transformer架构的深度学习模型,它将Transformer模型从自然语言处理(NLP)领域成功扩展到计算机视觉(CV)领域。2. Vision Transformer由Google Brain团队在2020年提出,该模型挑战了卷积神经网络(CNN)在视觉任务中的主导地位,证明了Transformer架构不仅在处理序列数据(如文本)方面非常有效,在处理图像数据时也能取得卓越性能。原创 2024-08-19 17:21:23 · 3439 阅读 · 0 评论 -
深度学习(9)---ResNet详解
5. ResNet后面跟的数字,如ResNet18、ResNet50、ResNet101等,代表的是该网络结构中特定层的总数,具体来说,这个数字通常指的是卷积层与全连接层的和,而不包括池化层、批量归一化(BN)层等其他类型的层。这些数字反映了网络的深度,即网络的复杂度。3. 解决上述问题(模型走偏)的方法:每一次增加函数复杂度之后的函数所覆盖的区域会包含原来函数所在的区域(嵌套函数(nested function)),只有当较复杂的函数包含复杂度较小的函数时,才能确保提高它的性能,如下图所示。原创 2024-08-17 20:13:54 · 1718 阅读 · 0 评论 -
深度学习(8)---Diffusion Modle原理剖析
1. 在整体思路部分我们已经知道了正向过程其实就是一个不断加噪的过程,于是我们考虑能不能用一些公式表示出加噪前后图像的关系呢。上图为等式右边三个高斯分布表达式,这个结果怎么得的大家应该都知道叭,就是把各自的均值和方差代入高斯分布表达式即可。和所加的噪声共同决定的,也就是说后一时刻的图像主要由两个量决定,其一是上一时刻图像,其二是所加噪声量。的权重随着时刻增加越来越大,表明我们所加的高斯噪声越来越多,这和我们整体思路所述是一致的,即越往后所加的噪声越多。是预先给定的值,它是一个随时刻不断增大的值。原创 2024-02-26 16:07:43 · 656 阅读 · 0 评论 -
深度学习(7)---Diffusion Model概念讲解
在扩散模型中,CLIP可以作为打通文本和图像的桥梁的核心模块,用于控制图像生成的过程。它分为正向的扩散过程和反向的逆扩散过程。正向扩散过程是往图片上加噪声的过程,即从无到有地添加噪声,直到得到纯噪声图片。(2) 每步添加高斯噪声的量是变化的,且后一步比前一步添加的高斯噪声更多。去噪过程不是说由一张图片生成另一张图片,而是在一张高噪声图片的基础上,减掉一个噪声图片从而得到另一张低噪声图片。3. 逆向过程:首先,我们会随机生成一个服从高斯分布的噪声图片,然后一步一步的减少噪声直到生成预期图片。原创 2024-02-04 17:21:14 · 2966 阅读 · 0 评论 -
深度学习(6)---Transformer
Transformer是一个Seq2Seq(Sequence-to-Sequence)的模型,这意味着它能够处理从输入序列到输出序列的问题。在Seq2Seq模型中,输入是一段序列,输出也是一段序列,输出序列的长度通常由模型自身决定。这种模型在自然语言处理(NLP)领域有广泛的应用,例如语音识别、机器翻译、语音合成、聊天机器人训练等。原创 2024-01-25 23:52:45 · 1594 阅读 · 2 评论 -
深度学习(5)---自注意力机制
1. 有时候我们输入转化后的一组向量之间会有关联。比如 “I saw a saw-----我看见一把锯子” 这句话,对于传统的模型,可能会将第一个 saw 和第二个 saw 输出相同的结果,但事实上两个 saw 是完全不一样的意义,第一个 saw 意思是"看见",而第二个 saw 意思是"锯子"。2. 所以出现了自注意力机制(Self-attention)模型来解决上述这个问题。对于输入 Seg 中向量不确定多的情况,Self-attention会考虑所有向量。原创 2024-01-23 00:09:49 · 1643 阅读 · 1 评论 -
深度学习(4)---生成式对抗网络(GAN)
生成式对抗网络(Generative Adversarial Network,GAN)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。它启发自博弈论中的二人零和博弈(two-player game),两位博弈方分别由生成模型(generative model)和判别模型(discriminative model)充当。判别模型用于判断一个给定的图片是不是真实的图片(从数据集中获取的图片),生成模型的任务是去创造一个看起来像真的图片一样的图片。两个模型一起对抗训练。原创 2023-10-29 17:09:34 · 2723 阅读 · 3 评论 -
深度学习(3)---PyTorch中的张量
1. 张量是一个多维数组,它是标量、向量、矩阵的高维拓展。2. 在张量的定义中,方括号用于表示张量的形状。例如,定义了一个2x3的二维张量,其中方括号 [[…], […]] 表示该张量有2行3列。例如,定义了一个2x2x3的三维张量,其中方括号 [[[…, …], […, …]], [[…, …], […, …]]] 表示该张量有2个2x3的矩阵。3. PyTorch中的张量(Tensor)和数组(Array)之间存在一些关键区别。尽管它们在许多方面都很相似,但在一些重要的方面也有所不同。原创 2023-10-04 19:32:35 · 2111 阅读 · 0 评论 -
深度学习(2)---循环神经网络(RNN)
循环神经网络(Recurrent neural networks,简称RNN)是针对序列数据而生的神经网络结构,核心在于循环使用网络层参数,避免时间步增大带来的参数激增,并引入隐藏状态(Hidden State)用于记录历史信息,有效的处理数据的前后关联性。考虑这样一个问题,如果要预测句子的下一个单词是什么,一般需要用到当前单词以及前面的单词,因为句子中前后单词并不是独立的。比如,当前单词是“很”,前一个单词是“天空”,那么下一个单词很大概率是“蓝”。原创 2023-09-30 20:28:13 · 2057 阅读 · 0 评论 -
深度学习(1)---卷积神经网络(CNN)
本篇文章讲述了深度学习的必备基础:卷积神经网络。包含CNN的发展史、卷积层和池化层操作。原创 2023-09-28 20:39:37 · 1446 阅读 · 1 评论