y江江江江-CSDN博客

原创 Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！）

在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是。是⼀家专注于NLP领域的AI公司，开发了⼀个名为的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、GPT-2、T5等。的开源库使研究⼈员和开发⼈员能够更轻松地使⽤这些模型进⾏各种NLP任务，例如⽂本分类、问答、⽂本⽣成等。这个库也提供了简洁、⾼效的API，有助于快速实现⾃然语⾔处理应⽤。

2025-03-20 18:06:18 749

原创从零到一：如何训练简版生成式GPT模型，快速实现创意写作

定义贪婪解码器函数# 对输入数据进行编码，并获得编码器输出以及自注意力权重# 初始化解码器输入为全零张量，大小为 (1, 5)，数据类型与 enc_input 一致# 设置下一个要解码的符号为开始符号# 循环 5 次，为解码器输入中的每一个位置填充一个符号# 将下一个符号放入解码器输入的当前位置# 运行解码器，获得解码器输出、解码器自注意力权重和编码器 - 解码器注意力权重# 将解码器输出投影到目标词汇空间# 找到具有最高概率的下一个单词# 将找到的下一个单词作为新的符号。

2025-03-19 14:31:47 1031

原创 Transformer：GPT背后的造脑工程全解析（含手搓过程）

是人工智能领域的革命性架构，通过让模型像人类一样"全局理解"上下文关系。它摒弃传统循环结构，采用实现高效训练，配合破解序列的时空密码，在机器翻译、文本生成等任务中实现质的飞跃。GPT、BERT等顶尖模型均基于Transformer，其设计如同给AI装上"多核大脑"，可同时捕捉词语间的语法、语义、指代等多维关系，成为通向通用人工智能的重要基石。

2025-03-17 19:48:02 1231

原创注意力机制：让AI拥有黄金七秒记忆的魔法--（自注意力）

⾃注意⼒就是⾃⼰对⾃⼰的注意，它允许模型在同⼀序列中的不同位置之间建⽴依赖关系。⽤我们刚才讲过的最简单的注意⼒来理解，如果我们把x2替换为x1⾃身，那么我们其实就实现了x1每⼀个位置对⾃身其他序列的所有位置的加权和。

2025-03-15 22:44:12 727

原创注意力机制：让AI拥有黄金七秒记忆的魔法--（注意力机制中的Q、K、V）

在注意⼒机制中，查询（Query）、键（Key）和值（Value）是三个关键部分。■ 查询（Query）：是指当前需要处理的信息。模型根据查询向量在输⼊序列中查找相关信息。■ 键（Key）：是指来⾃输⼊序列的⼀组表示。它们⽤于根据查询向量计算注意⼒权重。注意⼒权重反映了不同位置的输⼊数据与查询的相关性。■ 值（Value）：是指来⾃输⼊序列的⼀组表示。它们⽤于根据注意⼒权重计算加权和，得到最终的注意⼒输出向量，其包含了与查询最相关的输⼊信息。用下面栗子打一个比方：我们可以将x1视为查询（Query，Q）向

2025-03-15 22:13:31 1755

原创注意力机制：让AI拥有黄金七秒记忆的魔法--（缩放点积注意力）

定义 Attention 类import torch.nn as nn # 导入 torch.nn 库# 计算 decoder_context 和 encoder_context 的点积，得到注意力分数# 归一化分数# 将注意力权重乘以 encoder_context，得到加权的上下文向量点积解码器和译码器内容得到注意力分数后进行归一化得到权重，之后将权重乘解码器的内容以得到加权上下文的向量。

2025-03-15 19:01:28 1156

原创注意力机制：让AI拥有“黄金七秒记忆“的魔法----（点积注意力）

注意⼒机制对于初学者来说有点难理解，我们⼀点⼀点地讲。现在先暂时忘记编码器、解码器、隐藏层和序列到序列这些概念。想象我们有两个张量x1和x2，我们希望⽤注意⼒机制把它俩给衔接起来，让x1看⼀看，x2有哪些特别值得关注的地⽅。具体来说，要得到x1对x2的点积注意⼒，我们可以按照以下步骤进⾏操作。（1）创建两个形状分别为(batch_sizeseq_len1)和(batch_sizeseq_len2)的张量x1和x2。（2）将x1中的每个元素和x2中的每个元素进⾏点积，得到形状为 (batch_size。

2025-03-15 19:00:17 918

原创 Seq2Seq：让机器学会同声传译的魔法架构

import torch.nn as nn # 导入 torch.nn 库# 定义编码器类，继承自 nn.Moduleself.hidden_size = hidden_size # 设置隐藏层大小self.embedding = nn.Embedding(input_size, hidden_size) # 创建词嵌入层self.rnn = nn.RNN(hidden_size, hidden_size, batch_first=True) # 创建 RNN 层。

2025-03-13 22:34:19 914

原创循环神经网络(RNN)：给AI装上记忆芯片

RNN的核⼼思想是利⽤“循环”的机制，将⽹络的输出反馈到输⼊，这使得它能够，从⽽捕获序列中的⻓距离依赖关系，在处理序列数据，如⽂本、语⾳和时间序列时具有明显的优势。在每一次的输入处理中都会把之前已经提问过的问题通过与权重相乘到新的节点。结合前⼀时间步的隐藏层状态ht−1，计算当前时间步的隐藏层状态ht（即上图中的h这通常通过⼀个激活函数（如tanh函数）实现。计算公式如下（其中，Whh是隐藏层90到隐藏层的权重矩阵，Wxh是输⼊到隐藏层的权重矩阵）ht。

2025-03-11 22:11:57 1020

原创颠覆语言认知的革命！神经概率语言模型如何突破人类思维边界？

import torch.nn as nn # 导入神经网络模块# 定义神经概率语言模型（NPLM）self.C = nn.Embedding(voc_size, embedding_size) # 定义一个词嵌入层# 第一个线性层，其输入大小为 n_step * embedding_size，输出大小为 n_hidden# 第二个线性层，其输入大小为 n_hidden，输出大小为 voc_size，即词汇表大小def forward(self, X): # 定义前向传播过程。

2025-03-10 20:39:50 1798

原创图解Word2Vec：如何让AI真正“读懂”人类语言？

定义 Skip-Gram 类import torch.nn as nn # 导入 neural network# 从词汇表大小到嵌入层大小（维度）的线性层（权重矩阵）# 从嵌入层大小（维度）到词汇表大小的线性层（权重矩阵）def forward(self, X): # 前向传播的方式，X 形状为 (batch_size, voc_size)# 通过隐藏层，hidden 形状为 (batch_size, embedding_size)

2025-03-08 20:47:57 572

原创 NLP基石双雄：从N-Gram到BoW的终极实战指南

在N-Gram模型中，我们预测⼀个词出现的概率，只需考虑它前⾯的N-1个词。这样做的优点是计算简单，但缺点也很明显：它⽆法捕捉到距离较远的词之间的关系。⽽Bag-of-Words模型（也称“词袋模型”），不考虑哪个词和哪个词临近，⽽是通过把词看作⼀袋⼦元素的⽅式来把⽂本转换为能统计的特征。

2025-02-20 15:38:50 665

原创 AGI的星火？：解码语言模型进化史与文明重构

在斯坦福大学的地下档案室，保存着1955年麦卡锡手写的"人工智能"原始提案。泛黄的稿纸上，他用铅笔勾勒的智能体结构图，与GPT-4的transformer架构竟有惊人的拓扑相似性。这种跨越68年的认知共振，暗示着人类正在经历第四次认知革命——从甲骨灼纹到神经网络，信息载体的进化正在重塑文明的底层逻辑。

2025-02-20 14:38:26 1318

原创深度神经网络终极指南：从数学本质到工业级实现（附Keras版本代码）

这个模型本就是为了检测劣质品而生（劣质品即标签值为1的阳性正样本），但一共有2个劣质品，只发现了1个，有50%的正样本没有测准。（2）一种思路是在训练大型网络之前使用少量数据训练一个较小的模型，小模型的泛化好，再去训练更深、更大的网络。一个标准是精确率，也叫查准率，其公式是用“被模型预测为正的正样本”除以“被模型预测为正的正样本”与“被模型预测为负的正样本”的和。公式如下：对于输入数据的每个特征（也就是输入数据矩阵中的一整列），减去特征平均值，再除以标准差，之后得到的特征平均值为0，标准差为1。

2025-02-19 22:43:04 1044

原创逻辑回归--多元分类问题

有多少类别，就要训练多少二元分类器。每次选择一个类别作为正例，标签为1，其他所有类别都视为负例，标签为0，以此类推至所有的类别。训练好多个二元分类器之后，做预测时，将所有的二元分类器都运行一遍，然后对每一个输入样本，选择最高可能性的输出概率，即为该样本多元分类的类别。举例来说，如果对3个二元分类器分别做一次逻辑回归，机器的分类结果告诉我们，数据A是孔雀的可能性为0.5，是熊猫的可能性为0.1，是独角兽的可能性为0.4。那就会判断数据A是孔雀。

2025-02-17 22:38:28 1382

原创机器学习--逻辑回归

性质数学表达式物理意义梯度公式∂L∂w1N∑h−yx∂w∂LN1∑h−yx预测误差驱动物体参数调整Sigmoid导数dσzdzσz1−σzdzdσzσz1−σz))自动生成正则化效果概率计算Py1∣x11e−wTxPy1∣x1e−wTx1完美映射到[0,1]概率空间梯度1N∑i1Nyi−hxi∙xi。

2025-02-17 16:58:35 959

原创机器学习--实现多元线性回归

压缩def scaler(train, test): # 定义归一化函数，进行数据压缩# 数据的压缩min = train.min(axis=0) # 训练集最小值max = train.max(axis=0) # 训练集最大值gap = max - min # 最大值和最小值的差train -= min # 所有数据减最小值train /= gap # 所有数据除以大小值差test -= min #把训练集最小值应用于测试集test /= gap #把训练集大小值差应用于测试集。

2025-02-16 22:14:09 772 1

原创机器学习--线性回归

所谓回归分析（regression analysis），是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，也就是研究当自变量x变化时，因变量y以何种形式在变化。在机器学习领域，回归应用于被预测对象具有连续值特征的情况（如客流量、降雨量、销售量等）。在机器学习的线性回归分析中，如果只包括一个自变量（特征x）和一个因变量（标签y），且两者的关系可用一条直线近似表示，这种回归分析就称为分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为分析。

2025-02-16 18:28:19 1123

原创机器学习--张量

张量是机器学习程序中的数字容器，本质上就是各种不同维度的数组，如下图所示。张量的维度称为轴（axis），轴的个数称为阶（rank）

2024-12-10 11:57:55 443

原创机器学习--Kaggle的使用

灰度图像数据集是3D张量，第一个维度是样本维（也就是一张一张的图片，共60 000张），后面两个是特征维（也就是图片的28px×28px的矩阵）K折验证（K-fold validation）的思路是将数据划分为大小相同的K个分区，对于每个分区，都在剩余的K-1个分区上训练模型，然后在留。（1）Keras要求图像数据集导入卷积网络模型时为4阶张量，最后一阶代表颜色深度，灰度图像只有一个颜色通道，可以设置其值为1。对于数据集的规模比较小或者模型性能很不稳定的情况，这是一种很有用的方法。（二维卷积）层，两个。

2024-12-09 18:06:26 2623

原创机器学习--colab使用说明

点击+New按钮可以添加本地的文件和程序（在colab中要读取的数据需要实现上床，这点不如Kaggle有很多可以直接用的数据）

2024-12-08 21:46:01 678

原创我的创作纪念日

主要想混个纪念勋章哈哈，以下内容都是根据官方给的模板填写。

2024-12-08 18:07:25 256

原创 esp32-s3多任务处理

有如上代码，任务一的时间较长，但任务二时间较短，就会有一定冲突。此时就适合双线程来完成任务。

2024-12-08 17:56:51 1800

原创数字集成电路（7）---时序逻辑电路设计

这一电路的建立时间就是传输门的延时，它相应于节点C1采样D输入所需要的时间。当时钟为低电平时，在时钟下降沿处被采样的输入数据在输出端处，整个阶段都保持稳定，此时锁存器处于维持（hold）模式。不同于电平敏感锁存器，边沿触发的寄存器只在时钟翻转时才采样输入：0→1翻转时采样称为正沿触发寄存器，而1→0翻转时采样称为负沿触发寄存器。1.建立时间（Tsu）是在时钟翻转（对于正沿触发寄存器为0→1的翻转）之前数据输入（D）必须有效的时间。锁存器正常传输信号时，用低阈值器件，锁存器维持时，用高阈值器件。

2024-07-21 17:38:11 2005

原创数字集成电路（6）----CMOS组合逻辑门的设计

静态电路：每一个时刻，门的输出通过一条低阻通路连到VDD或是GND。PDN由NMOS器件构成，而PUN由PMOS管构成，这一选择的主要理由是NMOS管产生“强0”而PMOS器件产生“强1”。NMOS管的并联代表“或”（A+B）操作。PMOS网络的规则：如果两个输入都低，串联的两个PMOS都导通，这代表一个NOR（A⋅BAB）操作，而PMOS 管并联实现NAND（ABA⋅B）操作。利用互补CMOS逻辑合成一个CMOS复合门其功能为FDA⋅BC。

2024-07-21 17:37:02 4438

原创数字集成电路(5)---反相器

此外，较宽的晶体管具有较大的栅电容，这就增加了驱动门的扇出系数，从而又反过来影响它的速度。：由于在一个组合逻辑电路中大部分的电容是晶体管电容（栅电容和扩散电容），因此在进行低功耗设计时保持这部分电容最小是有意义的。同样，这一能耗与NMOS器件的尺寸无关。结论：使输出的上升/下降时间大于输入的上升/下降时间可以使短路功耗减到最小，但输出的上升/下降时间太大会降低电路的速度并在扇出门中引起短路电流。：在输出低电平时，驱动管和负载管同时导通，其输岀低电平由驱动管的导通电阻和负载管的等效电阻的分压决定。

2024-07-21 17:24:42 3398

原创数字集成电路(4)--- 器件（THE DEVICES）

在通常推导阈值电压时，假定了沟道耗尽区仅仅是由于所加的栅电压引起的，并且在栅下所有的耗尽电荷都来自于MOS场效应：这忽略了源端和反向偏置的漏端结的耗尽区.而它们却随着沟长的缩小变得更为重要。是由反向偏置的源-体和漏-体之间的pn结引起的，包括底板Pn结（The bottom plate junction）和侧壁Pn结（The side wall junction）。动态（dynamic）情况下的MOS晶体管—结构电容—沟道电容（channel capacitance）CGC：（简答）

2024-07-21 17:20:30 957

原创数字集成电路(3)

设计规则（design rules）：λ为最小线宽的1/2：例如对于一个0.25um的工艺，其λ的值为0.125um。衬底选择：常用（100）晶面（原因：面密度小，界面态少）光刻（photolithography）扩散和离子注入：900~1100℃。

2024-07-21 17:17:01 311

原创数字集成电路(2)

能量的传送越快（或者说功耗越大）则门越快，对于给定的工艺和门的拓扑结构，功耗和延时的乘积一般为一常数。这是由于对电容充电以及在电源和地之间有一暂时的电流通路造成的，因此它正比于开关频率：发生开关的次数越多，动态功耗越大。使这一功耗来源最小是一个十分重要的目标。要具有再生性，一个门的VTC应当具有一个增益绝对值大于1的过渡区(即不确定区)，该过渡区以两个合法的区域为界，合法区域的增益应当小于1，这样的一个门具有两个稳定的工作点。数字系统中的大多数噪声都是内部产生的，噪声的值与信号的摆幅成正比。

2024-07-21 17:03:59 1132

原创模拟集成电路(6)----单级放大器（共源共栅级 Cascode Stage）

对M1Vx≥Vin−VTH1VxVB−VGS2VB≥Vin−VTH1VGS2对M2Vout≥VB−VTH2Vout≥Vin−VTH1VGS2−VTH2Vout≥VOD1VOD2。

2024-06-02 14:03:28 3548

原创模拟集成电路(5)----单级放大器（共栅级）

有一些场合需要一些（电流放大器）

2024-05-29 19:51:19 1270

原创模拟集成电路(4)----单级放大器（源极跟随器）

大信号分析：（漏极一直接的是最高的电压，所以要么截止要么饱和，不会进入线性）当VinVTH时，M1关闭，Vout0当VinVTHM1导通，ID1随着Rs变化当Vin继续增加,Vout随Vin变化差值为vGS21μnCoxLWVin−VTH−Vout2RSVoutAν∂Vin∂V。

2024-05-22 22:36:27 1910 1

原创模拟集成电路(3)----单级放大器（共源极）

放大是模拟电路的基本功能理想的放大器线性：无限的幅度和频率范围输入阻抗无限大输出阻抗无限小共源放大器就是将源极接AC ground。一般我们对三点进行分析：Vout=VDDV_{out}=V_{DD}Vout=VDDVout=VDD−Id⋅RD=VDD−μnCox2WL(Vin−VTH)2⋅RD\begin{aligned}&V_{out}=V_{DD}-I_{d}\cdot R_{D}\\&=V_{DD}-\frac{\mu_{n}C_{ox}}{2}\frac{W}{L}(V_{in}-V_{

2024-05-11 22:38:47 2552 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

嵌入式开发-STM32G431RBTx-产生PWM

机器学习-案例：流行电影统计数据

机器学习-pandas(含数据)

简易加减运算器的制作-数字电路设计（含proteus仿真）

LCD接口（附8051LCD1602显示：源码＋原理图）

8051 的串口通讯及应用

8051单片机，定时器产生方波，计数程序源码＋proteus仿真文件

8051单片机，定时器产生方波，计数 程序源码＋proteus仿真图

按键控制走马灯，控制速度加减，模式变换-仿真文件＋源代码

空空如也

8051单片机，定时器产生方波，计数程序源码＋proteus仿真图