MMMMMMMay Love Code-CSDN博客

原创大模型工程师学习日记(十六):Bert-base-chinese模型基于微博数据集进行增量微调训练

过采样适用于小数据集、少数类样本重要或模型对数据量敏感的场景，但需注意过拟合风险。欠采样适用于大数据集、多数类样本冗余或计算资源有限的场景，但需注意信息丢失问题。根据具体任务需求和数据特点，灵活选择或结合两种方法，以达到最佳模型性能。这里我们使用欠采样#读取CSV文件#定义重采样策略#如果想要过采样，使用RandomOverSampler#如果想要欠采样，使用RandomUnderSampler#我们在这里使用RandomUnderSampler进行欠采样。

2025-03-08 18:14:08 1727

原创大模型工程师学习日记（十五）：Hugging Face 模型微调训练（基于 BERT 的中文评价情感分析）

4.2 数据集信息加载数据集后，可以查看数据集的基本信息，如数据集大小、字段名称等。3. 模型微调的基本概念与流程微调是指在预训练模型的基础上，通过进一步的训练来适应特定的下游任务。微调过程中，通常冻结 BERT 的预训练层，只训练与下游任务相关的层。初始化时，需要根据下游任务的需求，定义合适的输出维度。6. vocab 字典操作在微调 BERT 模型之前，需要将模型的词汇表（vocab）与数据集中的文本匹配。DataLoader 自动处理数据的批处理和随机打乱，确保训练的高效性和数据的多样性。

2025-03-06 17:33:53 1348

原创大模型工程师学习日记（十四）：检索增强生成（RAG）

递归分割(recursively)，这个文本分割器是用于通用文本的推荐工具。它会按顺序尝试在这些字符上进行分割，直到块足够小。这是通过查找任意两个句子之间的嵌入差异来完成的。这样做的效果是尽可能保持所有段落（然后是句子，再然后是单词）在一起，因为这些通常看起来是语义上相关的文本块。拆分的默认方式是基于百分位数。在此方法中，计算所有句子之间的差异，然后任何大于X百分位数的差异都会被拆分。如果嵌入足够远，文本块将被拆分。在高层次上，这将文本拆分成句子，然后分组为每组3个句子，最后合并在嵌入空间中相似的句子。

2025-03-06 16:54:37 474

原创大模型工程师日记（十三）：检索增强生成（RAG）

CSVLoader接受一个csv_args关键字参数，用于自定义传递给 Python 的的参数。有关支持的 csv 参数的更多信息，请参阅csv 模块文档。#示例：csv_custom.pycsv_args={},

2025-03-05 14:18:59 700

原创大模型工程师学习日记（十二）：检索增强生成（RAG）

检索增强生成（RAG）是指对大型语言模型输出进行优化，使其能够在生成响应之前引用训练数据来源之外的权威知识库。大型语言模型（LLM）用海量数据进行训练，使用数十亿个参数为回答问题、翻译语言和完成句子等任务生成原始输出。在 LLM 本就强大的功能基础上，RAG 将其扩展为能访问特定领域或组织的内部知识库，所有这些都无需重新训练模型。这是一种经济高效地改进 LLM 输出的方法，让它在各种情境下都能保持相关性、准确性和实用性。

2025-03-05 13:56:15 874

原创大模型工程师学习日记（十一）：FAISS 高效相似度搜索和密集向量聚类的库

是一个用于高效相似度搜索和密集向量聚类的库。它包含了在任意大小的向量集合中进行搜索的算法，甚至可以处理可能无法完全放入内存的向量集合。它还包含用于评估和参数调整的支持代码。下面展示如何使用与FAISS向量数据库相关的功能。它将展示特定于此集成的功能。在学习完这些内容后，探索可能会很有帮助，以了解如何将这个向量存储作为更大链条的一部分来使用。

2025-03-04 22:43:31 772 1

原创大模型工程师学习日记（十）：基于 LangChain 构建向量存储和查询 Qdrant

Qdrant（读作：quadrant /'kwɑdrənt/ n. 象限；象限仪；四分之一圆）是一个向量相似度搜索引擎。它提供了一个生产就绪的服务，具有方便的 API 来存储、搜索和管理点 - 带有附加载荷的向量。Qdrant专门支持扩展过滤功能，使其对各种神经网络或基于语义的匹配、分面搜索和其他应用非常有用。以下展示了如何使用与Qdrant向量数据库相关的功能。有各种运行Qdrant的模式，取决于所选择的模式，会有一些细微的差异。本地模式，无需服务器Qdrant 云请参阅安装说明。

2025-03-04 22:34:15 448

原创大模型工程师学习日记（九）：基于 LangChain 构建向量存储和查询：Weaviate

如何使用包在 LangChain 中开始使用 Weaviate 向量存储。是一个开源的向量数据库。它允许您存储来自您喜爱的机器学习模型的数据对象和向量嵌入，并能够无缝地扩展到数十亿个数据对象。要使用此集成，您需要运行一个 Weaviate 数据库实例。

2025-03-03 18:34:26 953

原创大模型工程师学习日记（八）:基于 LangChain 构建向量存储和查询：Chroma

检索器可以从向量存储器创建，但也足够广泛，包括Wikipedia搜索和Amazon Kendra。存储和搜索非结构化数据的最常见方法之一是将其嵌入并存储生成的嵌入向量，然后在查询时将非结构化查询嵌入并检索与嵌入查询“最相似”的嵌入向量。在这个基本示例中，我们获取《乔布斯演讲稿》(任意的txt格式的文档都可以），将其分割成片段，使用开源嵌入模型进行嵌入，加载到 Chroma 中，然后进行查询。在上一个示例的基础上，如果您想要保存到磁盘，只需初始化 Chroma 客户端并传递要保存数据的目录。

2025-03-03 18:27:11 1046

原创大模型工程师学习日记（七）：基于 Embedding 的问答助手和意图匹配

Embeddings类是一个专为与文本嵌入模型进行交互而设计的类。这很有用，因为这意味着我们可以在向量空间中思考文本，并做一些类似语义搜索的事情，比如在向量空间中寻找最相似的文本片段。之所以将它们作为两个单独的方法，是因为一些嵌入提供商对文档（要搜索的文档）和查询（搜索查询本身）有不同的嵌入方法。LangChain中的基本Embeddings类提供了两种方法：一个用于嵌入文档，另一个用于嵌入查询。来嵌入单个文本片段（例如，用于与其他嵌入的文本片段进行比较）。将返回一个浮点数列表的列表。

2025-03-02 15:11:40 530

原创大模型工程师学习日记（六）：Embedding 与向量数据库

通过这种层次化的搜索过程，HNSW 能够快速缩小搜索范围，在大规模数据中高效找到近似最近邻。

2025-03-02 14:56:41 1077

原创大模型工程师学习日记（五）：基于LangServe的AI服务架构深度解析

LangServe🦜️🏓 帮助开发者将LangChain可运行和链部署为 REST API。该库集成了FastAPI并使用pydantic进行数据验证。Pydantic 是一个在 Python中用于数据验证和解析的第三方库，现在是Python中使用广泛的数据验证库。它利用声明式的方式定义数据模型和Python 类型提示的强大功能来执行数据验证和序列化，使您的代码更可靠、更可读、更简洁且更易于调试。。它还可以从模型生成 JSON 架构，提供了自动生成文档等功能，从而轻松与其他工具集成。

2025-03-01 13:42:20 1139 2

原创大模型工程师学习日记（四）：Hugging Face 核心组件介绍

在人工智能领域，你是否曾为寻找高质量预训练模型而焦头烂额？是否因复杂的模型部署流程而望而却步？2016年诞生的HuggingFace，仅用数年便以“AI界的GitHub”之名席卷全球，成为开发者手中最锋利的AI工具。这里汇聚了20万+开源模型3万+数据集，从BERT到GPT-4，从文本生成到图像分割，只需一行代码即可调用顶尖AI能力。无论是算法工程师、学生还是创业者，HuggingFace都在重新定义AI开发的边界——模型即代码，AI触手可及。

2025-03-01 00:03:43 816 2

原创大模型工程师学习日记（三）：LangChain基础知识，解锁大型语言模型的无限潜力！

在人工智能的浪潮中，大型语言模型（LLMs）如 OpenAI 的 GPT、Hugging Face 的模型等，正在改变我们与技术交互的方式。然而，仅仅使用这些模型生成文本还远远不够。如何将这些模型与外部工具、数据源和逻辑结合起来，构建更强大的应用程序，成为了开发者面临的新挑战。这就是LangChain的用武之地。LangChain 是一个开源框架，旨在简化与大型语言模型的交互，并帮助开发者构建复杂的应用程序。

2025-01-10 00:12:27 1072

原创书生大模型第一关熟悉开发机

创建一个新的文件,并且粘贴这段代码.这段Python代码。开启端口映射,要打开PowerShell.并输入对应指令。1.创建一个开发机.选择好CUDA版本.进去开发机.最后运行代码,并点击网址.最后可以得到书生的招生网址。

2024-12-25 20:46:10 268

原创大模型工程师学习日记（二）：Git与GitHub的区别以及其分别的作用

Git与GitHub是两个不同的工具，但它们共同构成了现代软件开发中不可或缺的代码管理和协作开发体系。Git是一个分布式版本控制系统，专注于代码的版本控制和追踪；而GitHub则是一个基于Git的代码托管平台，提供了丰富的协作工具和社交功能来支持多人协作开发。了解它们的区别和作用可以帮助开发者更好地利用这两种工具来提高开发效率和质量。在实际项目中，开发者可以根据项目的需求和团队的规模来选择合适的工具。对于小型项目或个人开发者来说，Git可能已经足够满足需求；

2024-12-25 18:36:39 1870

原创书生进阶岛第六关：MindSearch 快速部署

1 MindSearch 简介MindSearch 是一个开源的 AI 搜索引擎框架，具有与 Perplexity.ai Pro 相同的性能。

2024-12-06 21:04:44 2246

原创阿里云大模型工程师学习日记（一）：初识大模型

大家肯定或多或少听说过大模型，作为初学者大家一定想知道，大模型有什么用。首先拿一个最简单的例子举例。你有过使用搜索引擎搜索问题却怎么也找不到有效信息的时候吗？就拿安装python举例子在拥有大模型之前我们使用搜索引擎去搜索问题，然而由于网页内容质量参差不齐，你有可能看了五个网页也找不到自己的答案。

2024-12-05 21:27:07 2361

原创书生大模型进阶岛第一关：探索书生大模型能力边界

S先生、P先生、Q先生他们知道桌子的抽屉里有16张扑克牌：红桃A、Q、4 黑桃J、8、4、2、7、3 草花K、Q、5、4、6 方块A、5。约翰教授从这16张牌中挑出一张牌来，并把这张牌的点数告诉 P先生，把这张牌的花色告诉Q先生。"等等，妈妈还要考你一个题目，"她接着说，"你看这6只做化验用的玻璃杯，前面3只盛满了水，后面3只是空的。解释：你可以分别给第一个、第二个、第三个孩子分发 2、1、2 颗糖果。解释：你可以分别给第一个、第二个、第三个孩子分发 1、2、1 颗糖果。Q先生：我知道你不知道这张牌。

2024-12-04 20:27:57 918

原创书生大模型进阶岛第二关Lagent：从零搭建你的 Multi-Agent

第八步，在/root/agent_camp4/lagent/lagent/actions/__init__.py文件内输入代码，并且在weather_query.py更改代码。插件的魅力，在没有接入搜索插件之前，Lagent无法找到关于MindSearch的论文。，体验这个Agent，在没有使用新接入的插件之前，询问成都的天气怎么样。Agent是查不出来的，使用天气插件之后，就可以回答我今天成都的天气怎么样了。放入代码，并且开启端口映射。环境，并且将相应的代码填写到其中，并且开启端口映射，运行这个文件。

2024-11-25 16:47:22 390

原创书生大模型进阶岛第三关LMDeploy 量化部署进阶实践

保持这个终端不动，新开一个窗口首先创建一个文件，并且将代码复制，并运行这个文件，保持这个终端不动，新开一个窗口首先创建一个文件，并且将代码复制，并运行这个文件。然后重新进行端口映射，因为这一次，我们要打开一个网站来体验这个API。接下来，我们输入这段命令。成功访问后，我们通过简单的你是谁，来进行提问确保API可以正常使用。然后我们对比量化后1.5G，未量化3.6G节约了58%的体积！经过量化之后我们来对比，量化之后的模型与原始的模型有什么差别。通过简单的提问，你是谁，来确定模型是可以使用的。

2024-11-23 05:41:58 302

原创书生大模型进阶岛第四关InternVL 多模态模型部署微调实践

多模态大模型是一种基于深度学习的机器学习技术，其核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。这种模型不仅可以理解文本、图像、音频和视频等单一模态的信息，还可以跨模态地理解它们之间的关系，从而实现更加全面和准确的信息处理。综上所述，多模态大模型通过融合不同模态的数据，并利用深度学习技术进行训练和优化，实现了跨模态的信息处理和理解。多模态大模型的设计模式主要关注于如何有效地融合不同模态的数据，以及如何在模型的各个层次中实现这种融合。

2024-11-14 23:09:32 1198

原创书生大模型第四期基础岛第六关

将代码输入对应的文件，然后运行代码。创建一个新的py文件配置数据集。获取API_key，进行配置。下载必要的库，和文件。

2024-11-11 19:10:51 237

原创书生大模型第四期基础岛第五关

在终端运行这段命令，并且开启端口映射。创建一个新的文件夹用于存储微调数据。在终端运行一下命令获取Config。创建一个文件来生成我们需要的数据。在终端运行这段命令，用于权重转换。在终端运行这段命令，用于模型合并。将代码中的机智流改成想要的称呼。1.首先配置好虚拟环境。在终段运行命令启动微调。然后访问网址，并且提问。然后安装Xtuner。

2024-11-10 23:53:17 219

原创书生大模型基础岛第四关

在llamaindex_demo文件夹下面创造一个download.py的文件用来下载Sentence Transformer 模型。创造一个新的文件名为llamaindex_intcrnlm.py。得到了没有经过RAG之前的模型回答。可以看出是不知道Xtuner是什么。创建一个名为llamaindex_RAG.py,并且运行代码。下载NLTK相关资源。可以在web提问问题。在终端命令行输入命令获得知识库。

2024-11-10 00:25:15 203

原创书生大模型基础岛第二关

通过MindSearch来搜索，2024 年诺贝尔物理学奖为何会颁发给人工智能领域的科学家 Geoffrey E. Hinton，这一举动对这两个领域的从业人员会有什么影响？感受到了书生大模型系列的完整性，无论是从图像还有语言领域都有自己的大模型。能在极短的时间内发展到现在这种程度真的非常了不起。使用书生蒲语大模型生成了一段简单的递归代码，反应的速度非常快，比文心一言和通意千问都快很多。最后将我利用MindSearch得到的答案，发表在了知乎的评论下方。书生万象也正确的回答了问题，并且响应的速度也非常快。

2024-11-08 15:48:03 235

原创书生大模型实战营基础岛第一关（书生大模型全链路开源开放体系笔记）

关于预训练和微调框架的优化，强调了显存优化和分布式训练的技术进步，这些改进降低了硬件要求，并提高了企业的成本效益，促进了模型的广泛应用。该视频介绍了不同规模的模型如1.8B、7B和20B参数的应用与性能，强调了20B模型的涌现现象，使其在实际应用中表现卓越。随着背景知识的增加，模型的定位精度逐渐降低，但在较短的背景下表现良好，适合处理复杂的查询和问题解决。这种能力是通过持续的反馈和数据质量提升而实现的，从而推动了模型的迭代发展高质量的合成数据是模型性能的重要驱动因素。

2024-11-04 16:03:29 405

qq_75269600的博客