- 博客(12)
- 收藏
- 关注
原创 【无标题】
第二个参数是隐藏层维度,输入embedding层的维度是[batch, sequence_length],输出的维度是[batch, sequence_length, hidden_size]第一个参数是词典大小。
2025-01-05 13:59:40
96
原创 chatglm3-6b的GLMblock架构
4.对注意力层的输出进行正则化(hidden_dropout是一种正则化技术,通常用于深度学习模型,尤其是在神经网络中。它的主要作用是减少过拟合,提高模型的泛化能力。会随机选择一些神经元进行失活处理,失活的神经元在当前迭代中不会参与前向传播和反向传播,可以减少过拟合,提高泛化能力,增强模型多样性)这有助于减少内部协变量偏移(Internal Covariate Shift),从而加速模型的训练。3.计算残差(可以选择归一化后的输入数据,也可以选择没有归一化的数据,既hidden_states进行残差连接)
2024-12-28 14:35:50
225
原创 19. 删除链表的倒数第 N 个结点
思路:双指针,第一个指针和第二个指针相差n个单位,然后遍历,后一个指针到尾的时候第一个指针只好是倒数第n个之前的一个数(我的方法是设定一个头指针,这样删除头指针的时候不会麻烦)
2024-11-24 14:24:45
104
原创 java力扣(hot100)
思路:创建一个哈希表,遍历列表,若target-nums[i]在哈希表中,则说明存在,则return,若没有,则把当前位置i和nums[i]放入哈希表,nums[i]为键。一些哈希表中的基本操作。
2024-09-13 16:59:24
263
1
原创 记录一些transformer包中自带的函数功能
将mask掩码转换为[bsz, 1, tgt_len, src_len]形状,此方法中运用了反转掩码实现了因果掩码,不使用反转掩码也是可以达成这个效果的,我在gpt上得到的回答是反转后1表示无效,0表示有效,更直观的表示了哪些位置是可以允许的,哪些是不允许的。此函数主要用于生成因果掩码,输入中的past_key_values_length为过去键值的长度,输入张量的形状input_ids_shape为batch_size和sqlen。2.创建一个mask_cond张量,形状为(0,sqlen-1)
2024-02-04 20:51:07
540
1
原创 Llama2 代码学习
此段代码的作用是定义模型中需要用到的各种超参数,维度,层数,头数,kv头数,词典大小,ffn_dim_multiplier和multiple_of暂时不知道,norm_eps为标准化时防止0出现在分母上的一个极小参数,,还有批次大小,序列长度大小。通过torch.view_as_complex函数将xq,xk变成复数形式,将freqs_cis广播为xq形式,将位置编码以复数相乘的方法加入xq,xk中,最后再返回实数形式。准备学习llama2模型的代码。
2024-02-02 17:18:03
1042
原创 怎样让服务器连上校园网
在校园网登陆界面点击登录,以上页面就会出现很多网络请求,记得登陆之前先清楚网络日志,之后在第一条中找到类似以下的页面请求:(记得一定是有带password的,没有的不行!连上之后可以在命令行ping www.baidu.com试试。
2024-01-26 15:54:13
1037
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人