自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 LLM-3:大模型常见微调方法lora

大模型,即大型预训练语言模型,是指参数量庞大、在海量文本数据上进行无监督学习的神经网络架构,如llama3.1、GPT-3等。这类模型具备数十亿乃至数百亿的参数,并通过深度多层结构与自注意力机制来理解语义和上下文。1.1基座模型基座模型通常是通过无监督与训练生成,例如在huggface、魔塔等网站下载的base结尾的模型,该模型是通过猜测下个单词或则下一句话进行训练。原因是现在的大模型大都采用Transformer框架,他由多层注意力机制构成,关注于完形填空和预测上下文任务。

2024-09-04 16:02:54 514

原创 LLM-2:LLama-factory windows部署及在qwen2-1.5B上的使用

LLama-factory的优势是将主流的微调方法、开源的大模型进行整合,形成一个功能丰富,便于操作的框架。以Qwen2-1.5Bt 模型 和 windows + RTX 4060ti 8GB环境,LoRA+sft训练阶段为例子。

2024-09-03 15:42:46 2622

原创 LLM-1:基于Qwen2-1.5b的rag实现方法

由于大模型,例如chatgpt、qwen2、llama3等都是在大规模通识数据库上进行预训练,因此对于特定领域的知识关注较少,使用RAG方法,可以将特定领域知识与大模型(llm)能力进行有机结合,得到更好的效果。1、数据库的数据(例如:专业领域的论文、书籍、笔记等):个人感觉将pdf转成markdown格式的效果更好。2、数据的向量嵌入(Embeding):常见的嵌入模型可以在下面网站进行获取,里面包含大量的中文和英文嵌入模型。3、向量数据库的建立:目的是存储数据的嵌入向量,并在用户阶段进行检索。

2024-08-30 17:05:25 765

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除