
大模型基础
文章平均质量分 96
Lament King
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型基础(六):ChatGLM原理介绍
ChatGLM是由中国智谱AI(Zhipu AI)与清华大学知识工程实验室(KEG)联合开发的一系列开源双语(中英文)对话大语言模型。该系列模型基于GLM(General Language Model)架构,针对对话场景进行了针对性改进,使其专注于高效推理和自然对话能力,适用于多种实际场景,如智能客服、内容生成、知识问答等,是国内目前的主流大模型之一。ChatGLM系列以高效、实用、安全为核心目标,通过GLM架构的创新和持续迭代,在双语对话场景中展现了强大的竞争力。原创 2025-05-07 08:25:04 · 1396 阅读 · 0 评论 -
大模型基础(五):transformers库(下):快速分词器、自动配置类、快速微调
本文的内容没有上一篇那么重要,除了 AutoConfig 外,其他了解即可。原创 2025-05-05 17:50:52 · 1089 阅读 · 0 评论 -
大模型基础(四):transformers库(上):pipline、模型、分词器
🤗 Hugging Face Transformers 库 是一个用于自然语言处理(NLP)和计算机视觉(CV)的 开源深度学习库,以提供丰富的预训练模型和便捷的模型调用接口而闻名。核心功能预训练模型支持• 提供 数千种预训练模型(如 BERT、GPT、T5、ViT、Stable Diffusion 等),涵盖文本、图像、音频等多模态任务。• 支持 PyTorch、TensorFlow 和 JAX 框架,可自由选择模型格式。统一接口设计• 通过AutoModel。原创 2025-05-05 16:27:49 · 666 阅读 · 0 评论 -
大模型基础(二):GPT-2的高效训练
上篇文章,我们介绍了GPT-2的结构,本文我们来介绍一下GPT-2的高效训练,相关的训练技巧也可以用于其他模型的加速训练。本文依然参考的是Andrej Karpathy复现GPT-2的讲解视频,本文的硬件设备为 RTX 3060显卡,显卡必须是30及以上系列,关于分布式的部分,则至少需要2张显卡。为了对比,我们把上篇文章复现GPT-2的代码,放到 model.py文件中,后续需要调用模型的时候,直接从这个文件中导入即可。本文所用数据集为莎士比亚的文本集,数据集有 40000 行,20万个单词,110万字节,原创 2025-04-30 00:46:32 · 832 阅读 · 0 评论 -
大模型基础(一):GPT-2复现
今天大多数大语言模型使用的 Decoder-Only 结构,都来源于 GPT 模型,要想学习大模型,有必要对GPT模型有所了解。由于GPT第一代历史比较久远,且影响没有后续几代那么广泛,而GPT第三代又没有开源,因此这里只介绍第二代,GPT-2的复现,有助于理解当今的主流开源大模型(如Llama、ChatGLM、通义千问)的设计理念。GPT-2(Generative Pre-trained Transformer 2)是由OpenAI于2019年发布的自然语言处理(NLP)模型,是GPT系列的第二代模型。原创 2025-04-27 14:26:29 · 1010 阅读 · 0 评论 -
大模型基础(三):Llama3复现
Llama 3,是Meta公司发布的大型语言模型,虽然能力上不如GPT4,但因为GPT4不开源,所以截至2024年4月,它也是最强的开源大模型。Llama3 有 8B 和 70B 两个版本。无论哪一个,我们都不可能成功复现出来,所以今天我们只实现一个mini版本,即原模型有的结构这里都有,但层数和维度都做了简化,其中隐藏层维度由4096降为1024,解码层数量由32降为2。本文的内容参考了B站up主蓝斯诺特的视频和代码。1 在注意力机制内部插入位置编码;2 位置编码使用旋转位置编码;原创 2025-04-27 10:10:33 · 786 阅读 · 0 评论