音程-CSDN博客

原创（以LLAMA3.1为例）大模型padding_side的影响（左填充和右填充）

训练时，当然推荐右填充，这样的话，如果batch1中的一句话和batch2中的一句话完全相同，（再假设模型参数不变，虽然这个假设不成立，因为batch之后会更新参数，但是你可以想象右填充的好处），那么尽管这句话在batch1与batch2中可能有不同的右填充数量，但是这句话的有效token的向量表示在两个batch中是相同的。推断时，如果是批推断，需要pad在左边，虽然会影响最后一个token的向量表示，从而影响下一个token的生成。你会发现，前8个有效token，两者是一样的，不会受到右填充的影响。

2025-07-21 11:30:15 244

原创（后者可以节约内存/GPU显存）Pytorch中求逆torch.inverse和解线性方程组torch.linalg.solve有什么关系

但是本人发现，这个函数还挺消耗显存的。想到求逆矩阵和求线性方程组有很大关系。从而可以使用torch.linalg.solve来求解逆矩阵，关键是其显存消耗小。反正可以节约蛮多显存的，尤其是当A的维度比较高，比如上万，精度比较高，比如float64，的时候。所以我们可以调用torch.linalg.solve来求解。求解逆矩阵不就是求解下面的X吗？

2025-07-19 12:14:27 169

原创一种torch.cuda.is_available()=False可能的原因

首先我是使用linux，cuda版本是12.1，然后去pytorch官网找对应的pytorch安装命令，这个cuda版本在2025年已经有丢丢老了，所以得在官网的先前版本找到https://pytorch.org/get-started/previous-versions/。还是在那个pytorch官网上找，在那个先前版本网站https://pytorch.org/get-started/previous-versions/，搜索“12.1”，你会发现有conda命令，也有pip命令的。

2025-07-19 10:48:36 443

原创（详细讲解）transformers中的AutoTokenizer的用法

⚠️ 如果你添加了新词，记得也要更新模型的 embedding 层！训练自己的 BPE Tokenizer# 初始化 BPE 模型# 定义特殊 token# 训练器配置# 读取训练数据（假设是 JSONL 文件）# 训练 tokenizer# 保存 tokenizer。

2025-07-15 12:09:01 1092

原创（使用24GB显存运行Llama-3.1-8B大模型）Python程序使用modelscope和huggingface的transformers导入调用Llama-3.1-8B-Instruct模型

spm=1011.2415.3001.5331，Llama系列的模型，想要导入是需要申请的，需要在huggingface官网上写一个申请表，而中国大陆这边一般都无法通过申请，申请结果会是reject（不是梯子的问题），所以上述代码无法成功导入。可以看到的是，上述代码，大模型默认是放在cpu上的，模型的参数的精度是float32，如果你想要将这个8B的模型放到24GB显存的GPU上，例如3090，4090，是不行的，显存不够，8B的模型默认大概需要30GB的显存。下载好了之后，我们看一下下载的文件。

2025-07-15 10:29:13 1694

原创（详细讲解）Hugging Face推出的transformers库的大模型导入方法AutoModelForCausalLM.from_pretrained()各个参数

（Causal Language Model）的预训练模型。它可以根据你提供的模型名称或路径自动选择合适的模型架构并加载权重。这个函数会从本地或远程（如 Hugging Face Hub）加载一个预训练模型。是 Hugging Face 的。库中最常用的函数之一，用于加载。这玩意太常用了，所以必须讲讲。

2025-07-14 16:39:46 883

原创（已解决）如何使用密钥连接远程服务器jupyter notebook从而在本地浏览器上打开

这里可以让jupyter notebook在后台运行，否则你关闭服务器连接的本地终端，例如MobaXterm，jupyter notebook也会关闭。密钥是针对服务器登录的，而密码是jupyter notebook要求的，到时候本地浏览器输入网址之后会要你输入密码。你只是服务器上的一个普通用户，连接服务器是通过密钥来完成。连接服务器由于我们是使用密钥，其会自动找到本地的私钥。输入网址后，需要输入密码，就是之前我们设置的那个，然后就可以了，我们新建一个笔记test，发现可以访问服务器资源。

2025-07-14 12:02:16 457

原创大模型GPU计算精度（FP64、FP32、FP16、INT8和BF16，FP8与FP4）

精度类型总位数动态范围有效小数位数存储占用应用场景FP646410−30810^{-308}10−3081030810^{308}1030815-178字节科学计算、金融建模FP323210−3810^{-38}10−38103810^{38}10387-84字节深度学习训练、通用计算FP161610−510^{-5}10−510510^{5}1053-42字节推理加速、混合精度训练BF16161。

2025-07-14 09:10:16 1016

原创语言模型常用的激活函数（Sigmoid ，GeLU ，SwiGLU，GLU，SiLU，Swish）

函数表达式特性应用场景Sigmoid11e−x1e−x1平滑，梯度消失，单调二分类输出层GeLUx⋅Φxx⋅Φx概率性软开关，平滑，非单调Transformer 模型GLUW1x⊗σW2xW1x⊗σW2x门控机制，非线性SwiGLUSiLUW1x⊗W2xSiLUW1x⊗W2x结合 SiLU 和 GLU，更灵活大型语言模型（如 T5、Mistral）SiLU/Swishx⋅。

2025-07-13 17:14:49 1281

原创什么是Jaccard 相似度（Jaccard Similarity）

给定两个集合 $ A $ 和 $ B $，Jaccard 相似度AB∣A∩B∣∣A∪B∣AB∣A∪B∣∣A∩B∣$ |A \cap B| $：集合 $ A $ 和 $ B $ 中共同元素的数量$ |A \cup B| $：集合 $ A $ 和 $ B $ 中所有不同元素的总数。

2025-07-12 20:19:38 346

原创（满满的坑LLAMA3使用申请被拒绝rejected）利用huggingface导入LLAMA3模型

对于LLAMA系列模型的使用申请，很多人都失败了，网上有一堆人吐槽的，比如https://huggingface.co/meta-llama/Meta-Llama-3-8B/discussions/124。我自己是买了梯子的，你要是嫌贵不舍得，那没办法了，我自己觉得还行，基本上所有网站都可以访问了。上面界面大概是说，LLAMA系列的模型的使用是受限的，需要申请后使用，申请之后会给你一个类似密码的东西。第三次账号填的是香港，名字是中国名字的拼音（乱写的中国名字，但是和账号一致），所属机构是香港大学。

2025-07-11 19:25:56 706 2

原创自然语言处理中probe探测是什么意思。

类型含义中文翻译动词探查、探测、深入调查名词探测器、探针、调查科技领域测试工具或方法探针、探头、探测模型机器学习用于探测模型内部知识的方法探针模型、探察能力分析。

2025-07-09 16:56:52 957

原创（完全解决）Resource punkt_tab not found. Please use the NLTK Downloader to obtain the resource

关键就是，根据我们之前写的分析，你要得到tokenizers/punkt_tab/english这个文件夹，并且要将其放置在任意一个之前提到过的目录下，比如我将其放置在第一个目录。然后会发现当前目录下有一个nltk_data文件夹，这个文件和github目录保持了一致。使用nltk的时候报错（吐槽一句，nltk这玩意经常报错，为啥还这么多人用，无语），我们要的就是那两个zip文件夹，需要解压缩，然后接下来怎么做你应该知道了吧。结果呢，这些目录下面都没有这个文件夹，所以就报错了。的文件夹，在哪里找呢？

2025-07-07 19:50:59 376

原创 linux如何下载github的一个项目

或者只是想下载某个特定版本的源代码而不想要整个历史记录，可以直接从GitHub网页界面下载ZIP文件。访问项目的主页，点击“Code”按钮后选择“Download ZIP”。如果未安装，可以使用包管理器进行安装。这样你就成功地将GitHub上的项目下载到了本地计算机上，并可以在本地对其进行操作了。可以看到，下载下来直接就是一个目录，和github那个目录结构是一模一样的。在Linux系统中，下载GitHub上的项目通常通过。灵活，特别是当你需要更新代码或提交更改时。命令，后面跟上刚才复制的URL。

2025-07-07 19:13:37 563

原创（完全解决）Cannot find remote credentials for target config com.jetbrains.plugins.remotesdk.target

这是不是就意味着我选择这两个远程解释器的任意一个，就可以完事了？点击上图的那个➖号，删除这个配置，重新配置一下解释器，然后使用这个解释器，一般来说一定会成功。首先可以肯定的是，是你没有配置好Python解释器。不能只看下面这里，因为这里的编辑配置可能会显示一切正常。如果显示连接成功，那么说明这个解释器可以用，也就是说你正确配置了解释器。在使用PyCharm运行一个远程服务器上的程序的时候，报如下的错误。然后找到解释器选项，我们下面有两个远程的解释器，一个本地的。

2025-07-07 11:02:00 412

原创（完全解决）TransportException: KeyExchange certificate check failed: Certificate is valid before

然后输入yes，发现本地将远程服务器添加到了known hosts里，即那个红色下划线对应的内容。由于服务器的管理问题，不使用密码，而是使用密钥连接，所以选择了上图那个id_rsa选项。这个时候退出cmd命令行，再去Pycharm，发现可以连接了。这个时候使用PyCharm连接其实还是会报上述错误。在使用PyCharm连接远程服务器的时候进入如下界面。但是点击测试连接的时候，出现错误。

2025-07-07 09:52:50 356

原创（报错）使用密钥在两个linux系统之间复制文件scp（Secure Copy Protocol）

想要将文件file.txt复制到另一台机器上去，目标机器ip地址是xx.xx.xx.xx。

2025-07-05 09:32:27 847

原创使用密码或者密钥在两个linux系统之间复制文件scp（Secure Copy Protocol）

场景命令本地文件 → 远程远程文件 → 本地本地目录 → 远程不同远程之间复制使用特定端口使用私钥登录。

2025-07-05 09:16:31 314

原创 BlenderBot对话机器人大模型Facebook开发

它旨在通过融合多种对话技能，包括问答、知识表达和个人聊天等，来创建更加流畅和自然的人机对话体验。Blender是搅拌机，果汁机，混合机的意思。

2025-07-02 19:18:26 364

原创 Python用法 yield from

yield from让你在生成器中可以优雅地把控制权交给另一个可迭代对象，避免手动写循环，使代码更简洁清晰。

2025-07-02 10:18:48 270

原创 Python 库包 typing

Python 是一种动态类型语言，变量的类型是在运行时确定的。你不知道a和b应该是整数、字符串还是其他类型。使用typing")IDE 可以提供更好的自动补全和提示；静态类型检查工具（如 mypy）可以在不运行代码的情况下发现潜在错误；代码更易读、易于维护。typing模块让 Python 在保留动态类型灵活性的同时，也具备了静态类型语言的严谨性和可维护性。

2025-07-02 10:13:16 364

原创 huggingface wikipedia load_datasets()发生错误 ValueError: BuilderConfig ‘20200501.en‘ not found.

huggingface的datasets这个包更新了，那么就无法下载wikipedia数据集 20200501.en了，截止2025年，目前下载的是20220301.en，如果你实在想下载20200501.en，那么需要换回旧版本datasets。请参考这篇文章，https://github.com/huggingface/datasets/issues/4143。有一说一，这个wikipedia 20220301.en 这个数据集是真的好大呀，下了一晚上，自动存放到了我的用户目录下，

2025-07-02 08:57:11 115

原创使用Pycharm在load_dataset下载数据时发生错误：ConnectionError: Couldn‘t reach ‘wikipedia‘ on the Hub

参考自https://zhuanlan.zhihu.com/p/676872237。在Pycharm中，加环境变量的方法如下红框。在运行程序时加上环境变量，运行下面代码时发生错误。

2025-07-01 22:09:55 140

原创 Python 库包 nltk （Natural Language Toolkit）

（NLP）的 Python 库，特别适合教学和研究。它提供了丰富的语料库、词典资源以及各种文本处理工具，非常适合初学者和研究人员使用。，nltk 不像 jieba 那样方便，需要自己加载语料和模型。

2025-07-01 19:42:23 1585

原创自然语言处理（NLP）中的rephrase和paraphrase的区别

术语中文含义定义特点Rephrase改写、重述把一句话用不同的词语重新表达，保持原意不变。通常是为了让句子更清晰、更适合某种用途（如提问、翻译等）。更强调结构变化但语义不变，常用于对话系统、问题改写。Paraphrase同义转述、释义用不同的词语表达相同的含义，可能稍微扩展或简化内容。更强调语义一致但形式不同，常用于数据增强、文本理解任务。特征RephraseParaphrase是否保持原意✅✅是否改变结构✅✅是否允许语义微调❌（严格保持原意）

2025-07-01 09:11:46 819

原创 Python 库包软件开发工具包（SDK） openai

功能描述中文支持✔️（GPT-3.5 和 GPT-4 均支持中文）易用性✔️（API 清晰简洁）支持模型✔️（GPT、DALL·E、Whisper、Embedding 等）推荐场景对话机器人、内容生成、语音处理、图像生成、知识问答等。

2025-06-30 20:23:45 616

原创 Python 库包 SDK zhipuai

zhipuai功能描述中文支持✔️（原生中文训练模型）易用性✔️（SDK 简洁清晰）支持模型✔️（GLM、GLM-4、ChatGLM 系列）推荐场景文本生成、对话系统、智能客服、教育、编程辅助如果你正在做以下项目，推荐使用zhipuai想开发一个中文聊天机器人需要生成高质量中文内容（如新闻、报告）希望快速接入 GLM 或 GLM-4 模型进行推理希望在企业内部部署 AI 辅助系统（无需训练模型）

2025-06-30 20:17:03 815

原创 Python 库包 PEFT

全称peft项目地址官方文档核心目标在不训练全部参数的前提下，使大模型适应特定任务或领域。减少计算资源和显存占用，提高训练效率。支持多种流行的参数高效微调方法（如 LoRA、IA³、Prefix Tuning 等）。特性描述中文支持✔️（无语言限制）易用性✔️（API 清晰简洁）可扩展性✔️（支持多种高效微调方法）推荐场景大模型微调、资源受限环境下的训练、快速实验迭代如果你正在做以下工作，建议使用peft。

2025-06-30 20:11:38 534

原创 Python 库包 accelerate

accelerate特性描述中文支持✔️（无语言限制）易用性✔️（API 简洁清晰）可扩展性✔️（支持 DeepSpeed/FSDP）推荐场景多 GPU 分布式训练、快速原型开发、科研实验如果你正在做以下工作，建议使用accelerate想要在多个 GPU 上快速部署训练任务不想花时间写复杂的分布式训练逻辑想要兼容 HuggingFace Transformers 模型想要利用混合精度或 DeepSpeed 提升训练效率。

2025-06-30 20:06:37 521

原创 Python 库包 sentence-transformers

如果你有自己的语义匹配任务（如问答、对话理解），可以使用# 构建训练样本InputExample(texts=["春天来了", "天气变暖了"], label=0.8),InputExample(texts=["我爱中国", "我是中国人"], label=0.9),...# 创建数据加载器# 加载模型# 使用余弦相似度损失函数# 开始训练model.fit(epochs=3,功能描述中文支持✔️（需使用中文预训练模型）多语言支持✔️（部分模型支持 50~109 种语言）

2025-06-30 19:44:56 1596

原创 Python库包 fairscale

项目地址主要用途：增强 PyTorch 的分布式训练能力，优化大规模模型的训练和推理。适用对象：研究人员、工程师、需要训练或微调大型神经网络的用户。特性说明优点支持大规模模型训练、显存优化、多 GPU 并行、灵活易用适用人群需要训练大模型的研究人员和工程师建议使用场景显存不足、需要分布式训练、模型太大无法加载时显存不够训练大模型？想要在多个 GPU 上高效训练？想要尝试 ZeRO、activation checkpointing、offloading 等前沿技术？那么 fairscale。

2025-06-30 10:04:23 690

原创 Python I/O 库包 iopath

项目地址官方描述：一个用于抽象文件系统的 Python 库，支持多种后端，包括本地文件系统、HTTP(s)、S3、HDFS 等。目标：提供统一接口来处理各种存储方式的数据，使代码更具可移植性和灵活性。如果你正在开发一个需要在多平台、多存储系统下运行的 Python 项目（尤其是深度学习或大规模数据处理相关），那么iopath是一个非常值得使用的库。它提供了统一、高效、灵活的文件 I/O 接口，帮助你写出更健壮、可移植的代码。

2025-06-30 09:54:29 704

原创 Python PyTorch 深度学习库包 timm

开箱即用（Pretrained Models + Easy API）模型种类多、覆盖广社区活跃，维护频繁适合科研和工程落地结合使用。

2025-06-30 09:44:03 920

原创矩阵范数的相容性Consistency（什么是相容的矩阵范数（Consistent Matrix Norm））

一个矩阵范数∥⋅∥\|\cdot\|∥⋅∥被称为是相容的（consistent）与向量范数相容（Vector-Matrix Consistency）∥Ax∥≤∥A∥⋅∥x∥∥Ax∥≤∥A∥⋅∥x∥对任意矩阵A∈Rm×nA∈Rm×n和向量x∈Rnx∈Rn成立。矩阵乘法相容（Multiplicative Consistency）∥AB∥≤∥A∥⋅∥B∥∥AB∥≤∥A∥。

2025-06-29 11:43:07 1036

原创矩阵的范数和逆矩阵的范数的关系

矩阵AAA的谱范数∥A∥2σmax⁡A∥A∥2σmaxA而奇异值是矩阵ATAA^T AATA的特征值的平方根。计算ATAA^T AATA求其特征值取最大特征值的平方根即为谱范数矩阵谱范数AAA∣A∣2≈9.68∣A∣2≈9.68A−1A^{-1}A−1∣A−1∣2≈1.613∣A−1∣2≈1.613。

2025-06-29 11:12:17 660