- 博客(5)
- 收藏
- 关注
原创 agent调研
1、agent定义:AI Agent是具备自主感知环境、进行自主决策规划、并能自主执行一系列任务以达成预设目标的智能系统。它由LLM、Planning(规划)、Memory(记忆)和Tools(工具)等几部分组成。agent最大的特点在于 全程无需人工选择、提示,仅依靠目标级的指令就可以输出最终产品完成任务2、LLM(Large Language Model,大语言模型) 是通过海量语料训练而来的语言模型,核心能力是理解和生成自然语言。3、二者本质区别。
2025-08-05 16:56:57
409
原创 Fun-Transformer Learning 04
具体来说,我们会在掩码为1的位置上加上一个非常大的负数(例如负无穷),这样在经过softmax操作后,这些位置的值将接近0,从而不会对全局概率预测产生影响。现在,模型需要知道哪些是真正的token,哪些是填充的token。解码器和编码器的最显著的一个不同就是:解码器的多头自注意力机制带有掩码,而编码器没有。一个位置,确保在训练阶段,解码器内的每个符号都能正确地获取之前生成符号的上下文信息。作用过程:掩码是个二维矩阵,上三角部分包括对角线的部分均设为0,这表示当前可以关注到的符号。(1)输出嵌入的右向偏移。
2025-02-21 23:06:00
879
原创 Fun-Transformer Learning03
包括初始输入、后续Encoder输入。初始输入:整个Encoder由六个相同的子模块按顺序链接构成。第一个子模块接收嵌入就是将输入的文本转为向量,位置编码是给予特定的位置信息。后续Encoder输入,除了第一个 Encoder 之外的其他 Encoder 子模块,它们从Encoder 接收相应的输入(inputs),这样就形成了一个顺序传递信息的链路。
2025-02-18 23:06:33
319
原创 FUN-Transformer Learning
1.序列到序列(Seq2Seq):就是输入一个数列,输出一个数列(输入的序列以bos开头,即告诉解码器开始生成目标序列,直至生成到eos标记为止)。他的特点是:序列的长度并不是固定的,这解决了深度神经网络在输入输出序列中需要固定长度的缺陷,因为深度神经网络为了达到固定长度,需要对序列进行Padding(如[1 2 3]——[1 2 3 0 0]),Padding 需要掩码Mask来忽略这些不灵的元素。反向传播和参数更新:计算梯度、参数更新;它中间的“上下文向量”是固定的,根据不同的任务可选择不同的编码器。
2025-02-10 22:20:01
309
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人