自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 问答 (2)
  • 收藏
  • 关注

原创 hugging face 学习记录:使用deepseekr1 1.5B 预训练模型生成红楼梦风格的文字

我不想改变模型的源代码,所以也可以对Trainer进行操作,写一个Trainer的子类,并重写compute_loss这个函数,将loss升维。当我的输入时1,2,3,4的时候,我预期输出的label时2,3,4,-100,也就是每个输入的token对应的label时下一个token。这个报错的意思是,在多个GPU并行运行时,程序会尝试将数据分发出去,但是如果此时接受到的数据是一个0维的标量,那么程序就会报错。可以看出来,虽然模型的能力有限,但确实训练后的模型更像红楼梦的说话方式了。

2025-03-30 18:18:40 858

原创 从零实现transformer 5: 完成

三是normalization,前向传播时,将每一层都进行normalization,那么每一层mormalization后的W就不会有太多的变化,因为W2(W1 * x) 与 W1 * x 就会是同一个量级的,那|W2|就 ~ 1.所以可以说,我们手搓下来的这个简化的transformer,就是和gpt3中使用的transformer是同样的结构,只不过模型参数更小。所以在这里我们的参数是3M*6(忽略final layer),大约18M,如果我们把参数都改成和chatgpt一样,那么我们的参数就是。

2025-03-29 14:21:33 677

原创 从零实现transformer 4:应用注意力机制,使用colab的免费gpu

前面说的注意力机制,是输入一句话,得到带有这句话token与token之间的权重信息的一组转换后的向量,可以理解为注意力机制给输入的这句话加权了。这样我们预测某个token的下一个token时,用到的就是这句话(这个token之前的token)给这个token加权后的结果来进行预测的,这个token就包含了这句话的语义信息。都是n个x*y,而且(x*n) * y这个线性层中,本来就是1*y重复x*n次并相加的结果,变换一下,自然也是(x*y)重复n次并相加,也就是n个单头注意力的结果相加。

2025-03-27 23:16:24 734

原创 从零实现transformer 3:做一个简单预测的模型框架

也就是说,在神经网络预测"你"这个token的下一个token的时候,我们完全只根据"你"这个token的embedding向量去做预测,假如“你”的下一个token被预测为“们”,那么embedding之后的神经网络就做了这样的事情f(“你”) = “们”,当然还有类似的f(“们”)=“在”,f(“在”)=“干”,f(“干”)=“什”,f(“什”)=“么”,f(“么”)=“?可以看出,模型的预测已经有点像正常文章的结构了,都是比较常见的字,很少生僻字,标点也很多。"的时候,前面的token们“

2025-03-26 21:30:56 728

原创 从零实现transformer 2:实现形式上的encoder,decoder,形式上在做预测的傻瓜模型

换了一个更新的视频学习。

2025-03-25 22:13:48 559

原创 从零实现transformer 1:word embedding, position embedding, encoder-self-attention-mask

学习记录

2025-03-24 22:01:14 636

原创 【使用POOL进行并行运算反而变得奇慢无比】

python使用pool需要注意的问题。进程太多几乎会锁死CPU。

2022-09-09 09:55:07 1333 2

原创 ubuntu虚拟机网络图标出现问号,没法上网,可能是因为校园网限制了ip

在学校宿舍发现Ubuntu连不上网,尝试了很多解决方法都没有效果,无意间发现可能是校园网的问题。主机网络从校园网换成手机热点,记得把同时连接的最大设备数调成2或者以上。关一下网络再打开,就会发现网络图标上的问号消失了,浏览器也能正常使用。之前应该是校园网限制了ip的原因。...

2021-11-23 17:16:16 7309 6

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除