
9transformers
文章平均质量分 82
想学习下现在很火的大模型基础知识,从现在开始疯狂
汀沿河
共同学习
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型目录
目录原创 2024-09-01 13:57:07 · 365 阅读 · 0 评论 -
8.1 prefix Tunning与Prompt Tunning模型微调方法
Prefix-Tuning 会初始化一个可训练的参数矩阵(Pθ),其维度为。在输入阶段,该前缀矩阵会与原始输入的嵌入向量,形成的结构。5×768。原创 2025-07-05 12:52:37 · 356 阅读 · 0 评论 -
00 目前大模型介绍
具体来说,可以将输入文本分割成多个片段,并从中随机选取若干片段进行掩码,然后将这些掩码片段的位置打乱,形成 Part A 和 Part B 的输入。4、为了区分part A和part B的token的位置信息,GLM采用了二维位置编码,也就是每个token用两个位置id来表示,这样一来就可以将token embedding和其对应的两个position embedding相加了。我的理解是:因为被mask的片段间实际上attention是单向的,打散可以完整的捕捉到不同片段之间的依赖关系】原创 2024-09-11 10:05:20 · 1851 阅读 · 0 评论 -
16 训练自己语言模型
在很多场景下下,可能微调模型并不能带来一个较好的效果。因为特定领域场景下,通用话模型过于通用,出现多而不精。样样通样样松;本章主要介绍如何在特定的数据上对模型进行预训练;训练自己的语言模型(从头开始训练)与微调(fine-tuning)预训练模型之间的选择取决于多个因素,包括但不限于数据特性、任务需求、计算资源和时间成本。原创 2024-09-09 17:51:59 · 1343 阅读 · 0 评论 -
15chatGLM3半精度微调
如果假设ChatGLM3是 ChatGLM 系列的后续版本,那么可以推测它可能是对现有 ChatGLM 模型的进一步改进和扩展。模型规模:增加模型的参数量,以提高模型的表达能力和泛化能力。架构改进:引入新的架构设计,例如更先进的注意力机制或其他创新技术,以提高模型的性能。训练数据:使用更多的训练数据,特别是高质量的对话数据,以增强模型的理解和生成能力。优化技术:采用更高效的训练方法和优化算法,以加速训练过程并提高模型的收敛速度。多模态能力。原创 2024-09-03 18:51:05 · 531 阅读 · 6 评论 -
14 大模型微调-KitTrain
但是模型本身的参数并无改变!训练是一种优化技术,主要用于减少模型训练过程中的内存占用和计算成本。这种方法通常涉及到使用低精度(如8位或更低)来存储和计算模型的权重,从而降低内存需求和加速训练过程。在深度学习领域,常见的低精度训练技术包括8位量化训练(8-bit training)和混合精度训练(Mixed Precision Training)。原创 2024-09-02 19:29:21 · 832 阅读 · 0 评论 -
13 对话大模型微调IA3
,通过学习向量来对激活层加权进行缩放,从而获得更强的性能,同时仅引入相对少量的新参数,如下图左边所示,它的诞生背景是为了改进 LoRA。2 参数task_type。原创 2024-08-31 15:17:03 · 834 阅读 · 0 评论 -
12 对话模型微调2
P-Tuning 是在 Prompt-Tuning的基础上,通过新增 LSTM 或 MLP 编码模块来加速模型的收敛;原创 2024-08-30 19:01:50 · 1585 阅读 · 0 评论 -
11 对话模型微调
提问:其实我一直觉的数据是最费事的一个,现在都是使用别人的数据,如果对于实际场景中那么我们该如何获取处理数据呢!1 数据处理;2 模型选择,调参数;原创 2024-08-30 17:17:52 · 913 阅读 · 0 评论 -
10.0大模型微调 bitfit
参数高效微调方法分类。主要基于三大类方法:基于additive、基于selective和基于reparametrization-based。在additive方法中,主要两大类:adapters方法和soft prompts。additive方法,顾名思义“增量式”,通常向预训练模型添加额外的小型网络层或模块,而不直接修改原有模型的权重。这种方法能够实现在保留预训练模型通用性能的同时,针对特定任务进行优化。- 适配器是一种轻量级的神经网络层,嵌入到预训练模型的各个层之间或之内。原创 2024-08-30 14:44:36 · 1093 阅读 · 0 评论 -
9 机器配置介绍
1 建议是GPU内存的两倍;如果想跑大模型,那么我们需要有自己的资源依赖,巧妇难为无米之炊;计算架八大件:个人计算机一般单卡或者双卡(GPU)Intel 系列主板:Z> B(中端) >H。3 CPU、主板、与内存的频率是否搭配;必须英伟达系列:1 RTX3090*2;型号搭配:CPU、主板的型号要搭配起来;满足:CPU功耗+GPU功耗 * 2,AMD 系列:X > B(中端)>A。性能搭配:高CPU高端主板;两个选择:单机&云服务;2 主板与内存是够搭配;双卡买1000W以上的;2 电源与机箱尺寸;原创 2024-08-29 11:08:58 · 369 阅读 · 0 评论 -
8 大模型微调
大部分接触大模型的同学大家可能都受限于资源的限制,无法对大模型重新训练。那么如何解决这一困境?我们暂且假定大模型为通用化模型,但是在某一方面的专业领域知识却不强,如果使用专业领域知识重新训练调整,这对资源还有人力都是极大的挑战,因此为在保证资源一定的条件下得到一个效果良好的模型,我们需要最大模型进行微调,对璞玉进行细琢,得到我们想要的样子。 大型预训练模型的训练成本非常高昂,需要庞大的计算资源和大量的数据,一般人难以承受。这也导致了一些研究人员难以重复和验证先前的研究成果。为了解决这个问题,研究原创 2024-08-29 17:12:10 · 1471 阅读 · 0 评论 -
7 大模型的那些道道
chat-gpt、sora、sd、文心一言(GAI,生成式AI)等等,这些是大模型嘛,准确来说这些只是大模型落地的产品;“大模型”通常指的是拥有大量参数的深度学习模型;因此对计算资源要求很高,入门门槛也比较高。作为一个普通人我们能做的就是在预训练的模型基础上然后做下游任务。是我们关心的。遇到什么问题,如何解决是我们学习的方法论。原创 2024-08-28 14:15:21 · 883 阅读 · 2 评论 -
6 大模型参数计算
模型训练过程内存计算原创 2024-07-31 11:15:11 · 805 阅读 · 0 评论 -
5 检索机器人
检索机器人:从文库中得到答案原创 2024-07-30 15:59:38 · 974 阅读 · 0 评论 -
4.2 文本相似度(三)
文本相似度评估,双塔。原创 2024-05-13 16:36:36 · 713 阅读 · 0 评论 -
4.1 文本相似度(二)
文本分类:两个句子连接原创 2024-05-13 15:03:12 · 1263 阅读 · 1 评论 -
4 文本相似判断任务
简单的文本相似模型微调原创 2024-04-24 17:33:27 · 685 阅读 · 0 评论 -
3 命名实体识别调优化
命名实体识别原创 2024-04-23 17:39:15 · 652 阅读 · 0 评论 -
2 使用自己的数据训练一个简单的二分类模型
二分类微调原创 2024-04-22 15:22:29 · 1037 阅读 · 0 评论 -
1 transformers:词典,(文本如何处理)
NLP任务最初,就是在于如何处理文本。无论从TFIDF到word2Vec的过程,还是BERT都是想找到文本的向量表达,如何表示更好处理我们的下游任务。那么,这个过程是如何做的呢,本文主要就是介绍这一个过程,还是代码为主,你要知道所有的大模型都干了这个。面对这么多的字,以及字之间的组合这是一个指数级别的增长。再者现在的网络文化无时无刻不再增加新的词汇,“提灯定损”,你懂的!VOF。那么模型具有一定的延时性,不可能包好所有的词,一个典型的没见过的用一个统一的符号代表。原创 2024-04-22 14:51:49 · 474 阅读 · 0 评论 -
0 transformers入门,HuggingFace!
HuggingFace使用入门,自己想学学看看能坚持多久。原创 2024-04-22 13:52:48 · 434 阅读 · 0 评论