- 博客(29)
- 收藏
- 关注
原创 大模型技术30讲-7-多GPU训练模式
在模型并行策略下,将不同的层分布到不同的GPU上,以解决单GPU显存限制的问题。在数据并行中,将批量数据拆分到多个GPU上,以解决无法并行训练的问题,数据并行会计算梯度的平均值来更新权重。序列并行方案将输入序列分割成更小的块,拆分到不同的GPU上,从而减少自注意力机制对计算内存的需求。与以上方法不同的是,序列并行专门处理有序数据,张量并行更多地针对模型的内部结构,而数据并行则针对训练数据的划分。,是一种将大规模的不同部分放到不同的GPU设备上按序计算的技术,计算的过程中数据会在不同设备间传递。
2025-07-10 08:42:19
511
原创 大模型技术30讲-6-通过改进模型减少过拟合现象
首先,教师模型通过常规的监督学习进行训练,并使用传统的交叉熵损失来确保能够准确分类数据集中的样本,损失是根据预测分数与真实标签之间的差异来计算的。学生模型会在同一个数据集上接收训练,但它训练的目标是同时减少(a)学生模型输出与分类标签之间的交叉熵,以及(b)学生模型输出与教师模型输出之间的差异(这里的差异通过Kullback-Leibler(KL)散度来衡量,这种度量方式会比较两个概率分布在信息量上的相对偏差,从而量化差异大小)。还有一个好处是,较小的学生模型可能比较大的教师模型更不容易产生过拟合现象。
2025-06-20 10:45:07
713
原创 大模型技术30讲-5-利用数据来减少过拟合现象
过拟合是机器学习中经常遇到的问题,它是指模型对训练数据拟合得过于紧密,导致学习到了数据的噪声和异常值。而并非数据背后的真实规律。结果造成模型在训练数据上表现良好(甚至可能达到100%准确率),但在未见过的数据或测试数据上都表现不佳。虽然有办法减少过拟合,但很难将其彻底消除,因此,我们的目标是尽可能将过拟合最小化。减少过拟合现象最有效的方式是采集更多高质量的有标签数据。但如果我们无法得到更多有标签数据,也可以通过增强现有数据或利用无标签数据进行预训练等方法来对付过拟合。
2025-06-12 23:49:18
600
原创 大模型技术30讲-4-彩票假设
彩票假设是一个关于神经网络训练的概念,它认为在一个随机初始化的神经网络中,存在着这样一个子网络(也称为“中奖彩票”):如果单独训练,在训练步骤相同的情况下,能在测试集上达到与一个完整的网络一样高的正确率。
2025-06-11 22:31:01
354
原创 大模型技术30讲-3-小样本学习
摘要:小样本学习是一种监督学习方法,适用于标签样本量极为有限的情况。其核心是通过支撑集构建多任务训练回合,采用N-way K-shot范式(N为标签数,K为样本数)。模型在训练阶段使用支撑集抽样生成任务,测试阶段则处理全新标签任务。主流方法元学习通过优化模型参数使其快速适应新任务。该方法为数据稀缺场景提供了有效解决方案。
2025-06-10 23:06:31
240
原创 大模型技术30讲-1
表征是输入的一种编码形式,通常是输入的中间形态。融入了原始数据的一些基本特征和属性,使其在后续的数据分析和数据处理中都能轻易使用。[1] 塞巴斯蒂安·拉施卡, 大模型技术30讲, 人民邮电出版社(北京), 2025, P1-P5.嵌入向量简称嵌入,能够将高维数据编码为低维向量,可以比原始数据维数更高,也可以更低。嵌入向量被映射到的空间。
2025-06-05 07:55:38
144
原创 Anaconda环境在服务器间的迁移
首先,在服务器A上创建3.10,名称为mplug_owl2的python环境,然后使用conda-pack把服务器A上的环境复制至服务器B中,B中conda环境路径为/home/usr/miniconda3/envs/,具体操作过程下面进行详细概述。
2024-04-26 20:30:36
504
1
原创 T5 运动鞋识别
划分训练集和测试集,其中训练集数据为502张,测试集数据为76张。导入数据并展示示例图片,图片总数为2142。构建三层卷积、两层全连接的神经网络。导入相关的包,并使用特定的GPU。
2023-11-24 21:57:31
459
1
原创 GPU版本tensorflow安装
由于tensorflow默认安装都是CPU版本,之前一直安装gpu版本出现很多问题,这里终于找到一种安装方法,以及自己电脑对应的版本。供大家参考。其中找到的比较优质的博文参考如下(1)(2)(3)
2023-11-18 12:18:24
390
1
原创 T4猴痘病识别
在anaconda prompt中新建名称为tensorflow_cpu的环境,并安装tensorflow,matplotlib的包。同时脚本代码为ipy文件,需要安装ipykernel。[在这里插入图片描述](https://img-blog.csdnimg.cn/cfebf30b0b254833a5c12e238fa72ca4.png#pic_center。划分训练集和测试集,其中训练集数据为900张,测试集数据为225张。采用CPU训练速度已经可见有些慢。导入数据并展示示例图片,图片总数为2142。
2023-11-17 21:29:02
209
原创 T3 天气识别
在anaconda prompt中新建名称为tensorflow_cpu的环境,并安装tensorflow,matplotlib的包。同时脚本代码为ipy文件,需要安装ipykernel。本文采用Tensorflow的框架,进行天气图像的检测识别,数据由K同学提供。可以看出,当训练epoch在20次以后,训练集精度已经到达1,训练集误差已经到0。划分训练集和测试集,其中训练集数据为900张,测试集数据为225张。构建三层卷积、两层全连接的神经网络。导入数据并展示示例图片。输出使用的电脑配置。
2023-11-10 14:14:48
143
1
原创 Week7,咖啡豆识别
(1)采用自己构建的VGG16网络进行训练得到的训练结果如下。最终准确率可以达到96.7%,最好模型准确率为98.3%。(2)调用官方的VGG16并再次训练分类器,得到的准确率为99.6%。模型的参数、训练结果和每个epoch的结果如下。Done预测结果是:Dark。
2023-10-20 14:04:52
133
1
原创 Week6 好莱坞明星识别
(1)采用原始网络进行训练得到的训练结果如下。可以看到训练精度大概再百分之二十多,比较低。同时注意到在epoch40以内,训练精度、测试精度、训练误差、测试误差都没有达到稳定值, 但有收敛趋势。可以稍微增大一下学习率。(2)改进结构,使得精度达到60%以上。为了提高精度,我把分类器中的参数都进行了学习训练,并添加droupout层防止过拟合。首先看一下网络代码。set_parameter_requires_grad(self.features, feature_extract)#固定特征提取层参数。
2023-10-20 12:21:56
110
1
原创 Week5 运动鞋识别
(1)采用原始网络进行训练得到的训练结果如下训练过程如下(2)在使用原始网络后,在第40个epoch时,测试集精度为80.3%,在第四周学习任务中,发现增加卷积层深度并不太能增加精度,而增加网络宽度可以,因此,增加通道数,具体如下所示。nn.ReLU())nn.ReLU())nn.ReLU())nn.ReLU())得到的训练结果如下所示每个epoch的精度和损失具体值如下,最终可以达到88%的精度。
2023-10-06 21:13:00
160
1
原创 Week4 猴痘病识别
(1)采用原始网络进行训练得到的训练结果如下训练过程如下(2)改变网络结构如下,并增加动量和学习率变化机制return x# train得到的训练结果如下所示每个epoch的精度和损失具体值如下,最终可以达到88%的精度。。。。
2023-09-29 19:23:50
101
1
原创 Week2 彩色图像CIFAR10图像识别
1、由于CIFAR10数据比较复杂,当采用原文中的设置进行100次迭代时,发生了过拟合现象,即训练精度达到1,测试误差先减小后不断增大,效果如下2、改进措施:在优化器中添加了动量,添加了学习率逐渐下降的机制,以及在网络模型的第一个全连接层后面添加Droupout机制,在改进之后,发现训练过程稳定下来了3、对过拟合问题进行改进后,发现测试集的精度稳定在70%左右,这应该是两层神经网络达到的上限了,想要提高精度,可增加卷积神经网络的宽度和深度。
2023-09-14 13:25:05
164
1
原创 目录文件的读取
小编想从两级文件目录下读取一张图片,并把此图片复制到另一个文件夹,这里所用的编程工具为python,奉上代码,先干为敬:# 从data_dir文件下读取图片,复制到file_dirdef file_name(file_dir,data_dir): # 读取data_dir下的所有文件夹 folderlist = os.listdir(data_dir) # print(...
2020-04-20 10:50:06
264
原创 数据集标注
数据集标注如何自己建立数据集数据集标注如何自己建立数据集入坑机器学习,首先要确定整体框架,而框架的构成就是对比算法、数据集和指标。数据集是验证算法的关键,而在论文中万一没有现成的数据集标注标注数据集的软件很多,labelme是很常用的一个,可在python3上使用,...
2020-04-20 10:43:14
2936
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人