- 博客(3)
- 收藏
- 关注
原创 LLM-3:大模型常见微调方法lora
大模型,即大型预训练语言模型,是指参数量庞大、在海量文本数据上进行无监督学习的神经网络架构,如llama3.1、GPT-3等。这类模型具备数十亿乃至数百亿的参数,并通过深度多层结构与自注意力机制来理解语义和上下文。1.1基座模型基座模型通常是通过无监督与训练生成,例如在huggface、魔塔等网站下载的base结尾的模型,该模型是通过猜测下个单词或则下一句话进行训练。原因是现在的大模型大都采用Transformer框架,他由多层注意力机制构成,关注于完形填空和预测上下文任务。
2024-09-04 16:02:54
514
原创 LLM-2:LLama-factory windows部署及在qwen2-1.5B上的使用
LLama-factory的优势是将主流的微调方法、开源的大模型进行整合,形成一个功能丰富,便于操作的框架。以Qwen2-1.5Bt 模型 和 windows + RTX 4060ti 8GB环境,LoRA+sft训练阶段为例子。
2024-09-03 15:42:46
2622
原创 LLM-1:基于Qwen2-1.5b的rag实现方法
由于大模型,例如chatgpt、qwen2、llama3等都是在大规模通识数据库上进行预训练,因此对于特定领域的知识关注较少,使用RAG方法,可以将特定领域知识与大模型(llm)能力进行有机结合,得到更好的效果。1、数据库的数据(例如:专业领域的论文、书籍、笔记等):个人感觉将pdf转成markdown格式的效果更好。2、数据的向量嵌入(Embeding):常见的嵌入模型可以在下面网站进行获取,里面包含大量的中文和英文嵌入模型。3、向量数据库的建立:目的是存储数据的嵌入向量,并在用户阶段进行检索。
2024-08-30 17:05:25
765
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人