永远在路上的萌新-CSDN博客

原创【无标题】

第二个参数是隐藏层维度，输入embedding层的维度是[batch, sequence_length]，输出的维度是[batch, sequence_length, hidden_size]第一个参数是词典大小。

2025-01-05 13:59:40 96

4.对注意力层的输出进行正则化（hidden_dropout是一种正则化技术，通常用于深度学习模型，尤其是在神经网络中。它的主要作用是减少过拟合，提高模型的泛化能力。会随机选择一些神经元进行失活处理，失活的神经元在当前迭代中不会参与前向传播和反向传播，可以减少过拟合，提高泛化能力，增强模型多样性）这有助于减少内部协变量偏移（Internal Covariate Shift），从而加速模型的训练。3.计算残差（可以选择归一化后的输入数据，也可以选择没有归一化的数据，既hidden_states进行残差连接）

2024-12-28 14:35:50 225

原创一些python的东西

在 Python 中，使用set查找数据的速度通常比在列表中使用循环查找数据要快得多。

2024-11-27 10:48:35 251

原创 19. 删除链表的倒数第 N 个结点

思路：双指针，第一个指针和第二个指针相差n个单位，然后遍历，后一个指针到尾的时候第一个指针只好是倒数第n个之前的一个数（我的方法是设定一个头指针，这样删除头指针的时候不会麻烦）

2024-11-24 14:24:45 104

原创 likou4

【代码】likou4。

2024-10-09 15:07:44 203

原创 java刷力扣（3）

17. 电话号码的字母组合。一些java的基础操作。

2024-09-25 15:37:13 143

原创 java实现快排

主要注意l和r谁先循环，分治的时候就要对应起来。

2024-09-24 16:46:03 146

原创力扣hot100笔记（java版）

初始状态为1.p(i,i)=true(i

2024-09-15 16:45:14 144

原创 java力扣（hot100）

思路：创建一个哈希表，遍历列表，若target-nums[i]在哈希表中，则说明存在，则return，若没有，则把当前位置i和nums[i]放入哈希表，nums[i]为键。一些哈希表中的基本操作。

2024-09-13 16:59:24 263 1

原创记录一些transformer包中自带的函数功能

将mask掩码转换为[bsz, 1, tgt_len, src_len]形状，此方法中运用了反转掩码实现了因果掩码，不使用反转掩码也是可以达成这个效果的，我在gpt上得到的回答是反转后1表示无效，0表示有效，更直观的表示了哪些位置是可以允许的，哪些是不允许的。此函数主要用于生成因果掩码，输入中的past_key_values_length为过去键值的长度，输入张量的形状input_ids_shape为batch_size和sqlen。2.创建一个mask_cond张量，形状为（0，sqlen-1）

2024-02-04 20:51:07 540 1

原创 Llama2 代码学习

此段代码的作用是定义模型中需要用到的各种超参数，维度，层数，头数，kv头数，词典大小，ffn_dim_multiplier和multiple_of暂时不知道，norm_eps为标准化时防止0出现在分母上的一个极小参数，，还有批次大小，序列长度大小。通过torch.view_as_complex函数将xq，xk变成复数形式，将freqs_cis广播为xq形式，将位置编码以复数相乘的方法加入xq，xk中，最后再返回实数形式。准备学习llama2模型的代码。

2024-02-02 17:18:03 1042