还得打多久代码-CSDN博客

原创 LLM-3:大模型常见微调方法lora

大模型，即大型预训练语言模型，是指参数量庞大、在海量文本数据上进行无监督学习的神经网络架构，如llama3.1、GPT-3等。这类模型具备数十亿乃至数百亿的参数，并通过深度多层结构与自注意力机制来理解语义和上下文。1.1基座模型基座模型通常是通过无监督与训练生成，例如在huggface、魔塔等网站下载的base结尾的模型，该模型是通过猜测下个单词或则下一句话进行训练。原因是现在的大模型大都采用Transformer框架，他由多层注意力机制构成，关注于完形填空和预测上下文任务。

2024-09-04 16:02:54 514

原创 LLM-2：LLama-factory windows部署及在qwen2-1.5B上的使用

LLama-factory的优势是将主流的微调方法、开源的大模型进行整合，形成一个功能丰富，便于操作的框架。以Qwen2-1.5Bt 模型和 windows + RTX 4060ti 8GB环境，LoRA+sft训练阶段为例子。

2024-09-03 15:42:46 2622

原创 LLM-1：基于Qwen2-1.5b的rag实现方法

由于大模型，例如chatgpt、qwen2、llama3等都是在大规模通识数据库上进行预训练，因此对于特定领域的知识关注较少，使用RAG方法，可以将特定领域知识与大模型（llm）能力进行有机结合，得到更好的效果。1、数据库的数据（例如：专业领域的论文、书籍、笔记等）：个人感觉将pdf转成markdown格式的效果更好。2、数据的向量嵌入（Embeding）：常见的嵌入模型可以在下面网站进行获取，里面包含大量的中文和英文嵌入模型。3、向量数据库的建立：目的是存储数据的嵌入向量，并在用户阶段进行检索。

2024-08-30 17:05:25 765

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人