- 博客(642)
- 收藏
- 关注
原创 【NLP】将 LangChain 与模型上下文协议 (MCP) 结合使用
MCP(模型上下文协议)是一种开源协议,旨在解决大型语言模型(LLM)与外部数据源的隔离问题。它采用客户端-服务器架构,标准化了AI代理与外部系统的连接方式,支持开发者构建可复用的模块化连接器。通过提供通用接口和预构建服务器,MCP实现了LLM与工具/数据源的安全、可扩展交互,使AI应用从孤立系统转变为深度集成的智能代理。示例展示了如何利用MCP连接数学计算工具与LangGraph代理,验证了其在实际应用中的可行性,为AI工具链提供了统一的数据交互范式。
2025-05-28 22:00:00
1321
1
原创 【LLM】什么是 MCP&ACP&ACA
想象一个统一的代理平台,其中 A2A 处理代理之间的交互,MCP 管理工具和数据的访问,ACP 风格的运行时插件可用于边缘或离线场景。然后是 ACP,它采用了完全不同的方法。不同的供应商推出各自风格的 A2A 或 MCP,最终导致一片混乱——就像早期的 Web 服务一样,如果没有大量的粘合代码,任何事物都无法与其他事物进行通信。与面向云的协议(例如 A2A)或上下文路由协议(例如 MCP)不同,ACP 旨在实现本地优先、实时代理编排,具有最小的网络开销以及在共享运行时内部署的代理之间的紧密集成。
2025-05-06 19:00:00
66
原创 【LLM】为什么最新的 LLM 采用 MoE(专家混合)架构
混合专家 (MoE) 架构是一种神经网络设计,通过为每个输入动态激活一组称为专家的专用网络子集来提高效率和性能。门控网络确定要激活哪些专家,从而实现稀疏激活并降低计算成本。MoE 架构由两个关键组件组成:门控网络和专家。让我们来分解一下:从本质上讲,MoE 架构就像一个高效的交通系统,根据实时条件和所需目的地将每辆车(或在本例中为数据)引导至最佳路线。每个任务都会被路由到最适合处理该特定任务的专家或子模型。这种动态路由可确保为每项任务使用最有能力的资源,从而提高模型的整体效率和有效性。
2025-01-13 17:26:44
1445
原创 【LLM】如何提高 RAG 模型的性能
最有效的 RAG 系统是根据您的独特需求和目标量身定制的系统,以实现最佳性能,而不会影响整体效率。这允许模型捕获更准确的值。这些扩展已经提供了一种增强 LLM 功能的强大方法,允许 LLM 检索和整合最新信息,确保您的模型保持相关性和准确性。尽管在实施检索增强生成 (RAG) 系统时,利用最先进的 LLM 通常可以保证卓越的内容生成和分析能力,但选择最复杂的 LLM 并不总是最好的选择。- 使用编码器模型将查询编码为向量表示,编码器模型通常是预训练的语言模型,如 BERT 或其他基于转换器的模型。
2025-01-13 14:20:18
566
原创 【NLP】使用 PyTorch 从头构建自己的大型语言模型 (LLM)
如果我们在 n 维空间中绘制一个向量,看起来相似的物体(如狗和猫)将彼此靠近,而看起来不相似的物体(如学校和家庭)的嵌入向量将位于更远的地方。为此,我们将使用一种流行的标记器,称为 BPE 标记器,这是一种子词标记器,正在 GPT3 等模型中使用。:前馈网络使用深度神经网络来学习两个线性层(第一层有 d_model 节点,第二层有 d_ff 节点,根据注意力论文分配值)中嵌入向量的所有特征,并且将 ReLU 激活函数应用于第一线性层的输出,为嵌入值提供非线性,并应用 dropout 以进一步避免过度拟合。
2024-11-11 08:58:04
1513
原创 【NLP】2024 年十大 RAG 框架 Github
检索增强生成 (RAG) 已成为增强大型语言模型功能的强大技术。RAG 框架将基于检索的系统与生成模型的优势相结合,从而实现更准确、更情境化和更及时的响应。随着对复杂 AI 解决方案的需求不断增长,GitHub 上出现了许多开源 RAG 框架,每个框架都提供独特的功能和能力。RAG 框架有什么作用?RAG 工作流程(RAG) 是一种 AI 框架,它通过整合外部知识源来增强大型语言模型 (LLM) 的功能。
2024-11-08 14:26:55
1554
原创 【NLP】使用 SpaCy 通过 LLM 合成数据微调 NER 模型
现在,在这篇文章中,我们将更进一步,使用 SpaCy 训练各种 NER 模型,比较它们的性能,并检查它们在我们合成生成的数据集中识别实体的能力。中,我们探讨了如何使用 Qwen 生成合成数据,以自动化命名实体识别 (NER) 的注释过程。然后,我们将数据分成训练集 (80%) 和验证集 (20%),使我们能够在训练期间评估模型性能。对象对于训练 SpaCy 模型至关重要,因为它们封装了输入(原始文本)和预期输出(实体)。方法恢复训练,该方法初始化优化器。在这里,我们加载了 SpaCy 的预训练中文模型,
2024-11-08 09:59:18
1546
原创 【NLP】使用 SpaCy、ollama 创建用于命名实体识别的合成数据集
生成合成数据可以创建大型注释数据集,而无需耗时且昂贵的手动标记过程,从而可以快速训练用于各种 NER 应用程序的模型。示例充当“指令调整”的一种形式,向模型展示如何以特定方式响应,从而降低生成的输出中出现错误和不一致的可能性。在我们的案例中,使用多个输入文本示例与相应的 JSON 输出配对,向模型展示如何一致地识别和格式化城市名称。命名实体识别 (NER) 是自然语言处理 (NLP) 中的一项重要任务,用于自动识别和分类文本中的实体,例如人物、位置、组织等。接下来,我们创建一个查询 LLM 的系统提示。
2024-11-07 19:29:14
1521
1
原创 【NLP】利用 RAG 模分块技术提升文档处理效能
有效的分块,即将文档拆分为可管理的片段的过程,对于优化 RAG 系统的检索和嵌入步骤至关重要。通过利用 SBERT 和先进的平滑和聚类技术,这种方法比传统的文档分割方法有了显著的改进。此外,我们将介绍一种新颖的主题感知分块方法,该方法利用句子嵌入来识别文档中的主题转变。传统的分割技术(从简单的基于规则的方法到高级机器学习算法)都难以识别主题转换的精确点。通过采用这种方法,RAG 系统可以在其生成的内容中实现更高的准确性和相关性,使其更有效地完成复杂且知识密集型的任务。此方法非常适合需要连贯完整思想的任务。
2024-07-09 11:28:24
1405
原创 【NLP】LLM 和 RAG
在这里,我描述了我在过去几年中关于 RAG 系统如何发展的主要经验。分享Naive RAG、Advanced RAG 和 Modular RAG 框架之间的区别。
2024-04-02 16:33:38
2279
原创 【NLP】RAG 应用中的调优策略
检索增强生成应用程序的调优策略没有一种放之四海而皆准的算法能够最好地解决所有问题。本文通过数据科学家的视角审视检索增强生成(RAG)管道。它讨论了您可以尝试提高 RAG 管道性能的潜在“超参数”。与深度学习中的实验类似,例如,数据增强技术不是超参数,而是可以调整和实验的旋钮,本文还将介绍您可以应用的不同策略,这些策略本身不是超参数。本文涵盖以下按相关阶段排序的“超参数”。在RAG 管道的请注意,本文涵盖了 RAG 的文本用例。对于多模式 RAG 应用,可能需要考虑不同的因素。
2023-12-11 10:40:11
1960
原创 【NLP】如何管理大型语言模型 (LLM)
此外,LLM 编排框架提供强大的监控和错误处理机制,增强了基于 LLM 的应用程序的整体可靠性。LLM-Ops 是一个不断发展的领域。通过为 LLM 管理提供结构化且高效的方法,LLM 编排使开发人员能够构建更强大、可扩展且可靠的应用程序,利用这种尖端技术的变革力量。通过为 LLM 管理提供结构化且高效的方法,LLM 编排使开发人员能够构建更强大、可扩展且可靠的应用程序,利用这种尖端技术的变革力量。LLM 编排框架的选择取决于应用程序的特定需求、开发人员的首选编程语言以及对 LLM 管理的所需控制级别。
2023-12-07 09:56:17
1790
1
原创 【NLP】GPT 模型如何工作
例如,如果您的训练数据包含单词“car”,您可以向“c”行和“a”列中的单元格添加 1,然后向“a”行和“r”中的单元格添加 1柱子。文本生成的质量再次受到算法支持的输入标记数量的限制,需要新的突破。然而,语言模型需要有一个完整的可能遇到的标记列表,而这对于整个单词来说是不可行的——不仅因为字典中有太多单词,而且因为很难跟上领域的步伐——特定术语和发明的任何新词。最后,我们描述了 OpenAI 的三个最新的基于 Transformer 的 GPT 模型、每个模型的实现方式以及如何编写使用它们的代码。
2023-11-22 17:22:38
1325
原创 【NLP】培训LLM的不同方式
在大型语言模型(LLM)领域,存在多种具有不同手段、要求和目标的培训机制。由于它们有不同的用途,因此重要的是不要将它们相互混淆并了解它们适用的不同场景。在本文中,我想概述一些最重要的训练机制,包括预训练微调人类反馈强化学习 (RLHF)和适配器。此外,我将讨论提示的作用,提示本身不被认为是一种学习机制,并阐明提示调整的概念,它在提示和实际训练之间架起了一座桥梁。预训练预训练是最基本的训练方式,与您所知道的其他机器学习领域的训练相同。
2023-11-22 17:19:37
1031
原创 【NLP】LLM 中 100K 上下文窗口背后的秘密:所有技巧都集中在一处
具有条件计算的 COLT5 Transformer 层的概述。人们想要申请法学硕士的重要用例之一是“将大量自定义数据放入LLM”(与公司或特定问题相关的文档、各种异构文本等)并提出有关该特定数据的问题,不是LLM在培训期间看到的一些来自互联网的抽象数据。我学到了很多东西,我希望你也学到了,现在我们可以猜测这些具有数十亿参数的大型语言模型是如何在前所未有的 65-100K 令牌上下文窗口中进行训练的。次迭代,因为上下文长度变得更大(为了简单起见,我们假设它是线性的,根据任务的不同,它可能是高估或低估)。
2023-11-17 11:33:13
1730
原创 【NLP】理解 Llama2:KV 缓存、分组查询注意力、旋转嵌入等
是 Meta AI 的开创性作品,作为首批高性能开源预训练语言模型之一闯入了 AI 场景。值得注意的是,,尽管其尺寸只是其一小部分。您无疑听说过 LLaMA 令人印象深刻的性能,但您是否想知道是什么让它如此强大?图 1:原始 Transformer 和 LLama 之间的架构差异检查图 1 揭示了从原始 Transformer 到突破性的 LLaMA 架构的深刻转变。LLaMA 2.0 牢固地植根于 Transformer 框架的基础,但它引入了独特的创新——SwiGLU和。
2023-11-13 13:58:56
4496
原创 【NLP】大型语言模型,ALBERT — 用于自监督学习的 Lite BERT
介绍近年来,大型语言模型的发展突飞猛进。BERT 成为最流行、最高效的模型之一,可以高精度地解决各种 NLP 任务。BERT 之后,一系列其他模型随后出现,也表现出了出色的效果。显而易见的趋势是,。深度学习研究表明,此类技术通常会带来更好的结果。不幸的是,机器学习世界已经解决了有关法学硕士的几个问题,可扩展性已成为有效训练、存储和使用它们的主要障碍。因此,最近开发了新的LLM来解决可扩展性问题。在本文中,我们将讨论 2020 年发明的 ALBERT,其目标是显着减少 BERT 参数。
2023-11-13 10:49:58
920
1
原创 【AI】自回归 (AR) 模型使预测和深度学习变得简单
通过为问题选择正确的工具,无论是基本的 AR 模型还是更复杂的模型,从业者都可以做出更准确的预测,并从时间序列数据中发现更深入的见解。深度学习中的自回归是指应用深度神经网络对序列数据进行建模和预测,其中序列中的当前值取决于先前的值。总体而言,自回归模型是时间序列分析和 NLP 的基本概念,为理解、预测和生成序列数据提供了强大的工具。在接下来的部分中,我们将从 AR(p) 模型的基础知识和自回归系数的作用开始,更深入地研究自回归模型的机制。自回归建模的核心是 AR(p) 模型,其中“p”代表模型的阶数。
2023-11-10 11:22:51
8013
1
原创 【AI】生成模型变得简单:了解它们的工作原理和不同类型
这些模型是创意人工智能的核心,它们有能力生成各种内容,从栩栩如生的图像和引人入胜的文本到令人着迷的音乐和创新的艺术作品。在这篇博文中,我们将踏上探索生成模型的迷人世界的旅程,揭开其复杂的内部运作机制并了解其非凡的潜力。生成器的目标是生成与真实数据无法区分的数据,而鉴别器的任务是成为区分真实数据和生成数据的专家。例如,在文本生成中,每个单词都是根据其前面的单词生成的。我们将深入研究生成模型的内部工作原理,提供可供使用的模型列表,讨论它们的挑战和局限性,并探索有望突破人工智能创造力界限的令人兴奋的未来趋势。
2023-11-10 11:11:43
1273
翻译 【NLP】DeepSpeed-FastGen:通过 MII 和 DeepSpeed-Inference 为LLM生成高通量文本
一、简介GPT-4 和 LLaMA 等大型语言模型 (LLM) 已成为服务于各个级别的人工智能应用程序的主要工作负载。从一般聊天模型到文档摘要,从自动驾驶到软件堆栈每一层的副驾驶,大规模部署和服务这些模型的需求猛增。虽然 DeepSpeed、PyTorch 等框架可以在 LLM 训练期间定期实现良好的硬件利用率,但这些应用程序的交互性和开放式文本生成等任务的较差算术强度已成为现有系统中推理吞吐量的瓶颈。为此,由 PagedAttention 提供支持的和等研究系统显着提高了 LLM 的推理性能。
2023-11-10 11:00:29
1741
2
原创 【NLP】特征提取: 广泛指南和 3 个操作教程 [Python、CNN、BERT]
通过使用预先训练的 CNN 模型进行特征提取,您可以受益于该模型自动学习和捕获信息丰富的图像特征的能力。此外,随着 NLP 研究的不断发展,预训练的语言模型因其提供丰富的上下文嵌入的能力而受到欢迎,并显着提高了各种 NLP 任务的现有技术水平。深度学习模型,特别是用于图像数据的卷积神经网络 (CNN) 和用于文本等序列数据的循环神经网络 (RNN),可以学习数据中复杂的模式和表示。总之,特征提取是数据预处理和机器学习的基本步骤,在提高模型的质量、可解释性和性能方面发挥着至关重要的作用。
2023-11-07 15:47:59
10449
3
原创 【NLP】什么是语义搜索以及如何实现 [Python、BERT、Elasticsearch]
语义搜索是一种先进的信息检索技术,旨在通过理解搜索查询和搜索内容的上下文和含义来提高搜索结果的准确性和相关性。总体而言,NLP 语义搜索提供了更复杂和上下文感知的搜索功能,使其在各种应用中都很有价值,包括网络搜索引擎、企业搜索、电子商务、聊天机器人和虚拟助理,在这些应用中,理解和满足用户的意图至关重要。与传统方法相比,BERT 的上下文理解可以显着提高搜索结果的质量。自然语言处理(NLP)上下文中的语义搜索是指应用NLP技术通过理解搜索查询和正在搜索的内容的含义和上下文来增强搜索结果的准确性和相关性。
2023-10-30 11:11:06
6401
2
原创 【NLP】20 个基本的文本清理技术
NLP 中的文本清理是什么?文本清理,也称为文本预处理或文本数据清理,正在准备原始文本数据并将其转换为更干净、更结构化的格式,以用于分析、建模或其他自然语言处理 (NLP) 任务。它涉及各种技术和程序,从文本文档中去除噪声、不一致和不相关信息,使数据更适合文本分析、情感分析、文本分类和机器学习等下游任务。文本清理的主要目标是什么?文本清理是任何文本分析或 NLP 项目中的关键步骤。清洗后的文本数据的质量直接影响后续分析或建模任务的准确性和有效性。
2023-10-09 17:09:14
5317
3
翻译 【LLM】低成本进行半天的训练可产生与主流大型模型、开源且无商业的特定领域 LLM 解决方案类似的结果
在常见的英语评测排名中可以观察到,在MMLU排名中,Colossal-LLaMA-2-7B-base在低成本持续预训练的支持下,克服了灾难性遗忘的问题。用户只需要上传自己的数据进行微调,并且可以将微调后的模型以API的形式部署。因此,在兼顾训练质量和效率的情况下,经过大量实验,Colossal-AI团队决定将LLaMA-2的词汇量从原来的32,000个单词扩大到69,104个。纵观整个训练损失记录,很明显,在利用 Colossal-AI 系统的成本效益功能的同时,模型的收敛性也得到了很好的保留。
2023-09-27 17:06:41
470
原创 【LLM】如何使用单个GPU 微调 Llama2
自然语言处理领域通过 ChatGPT 等大型语言模型 (LLM) 取得了令人难以置信的进步。然而,这些模型都有其局限性。他们可能会提出隐私问题,遵守一套固定的规则,并仅限于最后一次培训的日期。PaLM 和 GPT-3.5 等预训练 LLM 的另一个限制不是。这意味着开发人员和研究人员无法访问模型的内部工作原理,从而限制了他们根据特定用例微调和定制模型的能力。幸运的是,新时代已经到来,是Meta推出的开源LLM,它允许,减轻隐私问题并实现个性化的AI体验。此外,创新的。
2023-09-14 09:36:40
2118
3
原创 【LLM】微调LLM:LoRA 还是全参数?Llama 2 的深入分析
在本文中,我将全参数微调与 LoRA 进行比较,并回答有关这两种技术的优缺点的问题。使用 LoRA 涉及服务效率和模型质量之间的权衡,这根据手头的具体任务而变化。此外,我还提供有关如何通过智能提示技术稳定 LoRA 训练的见解。进一步表明,采用较低的学习率可以提高所得模型检查点的可靠性。近几个月来,开源LLM与 OpenAI 的专有模型展开了一场竞赛。提高开源 LLM 性能的一种流行策略是全参数微调。在该方法中,所有模型的参数都被优化。
2023-09-08 14:35:34
4195
2
原创 【AI】Diffusion Models
具有讽刺意味的是,扩散模型在图像中生成文本方面非常糟糕,尽管图像是根据文本提示生成的,而扩散模型可以很好地处理文本提示。“全身赛博朋克风格的雕塑,是一位年轻英俊的哥伦比亚王子半机器人,胸部开口,暴露出电路和电火花,发光的粉红色眼睛,蓝色花冠,流动的鲑鱼色丝绸,织物,猛禽。“极其详细的广角照片,大气,夜晚,反射,屡获殊荣的当代现代室内设计公寓客厅,舒适而平静,织物和纺织品,几何木雕,色彩缤纷的口音,反光黄铜和铜装饰,阅读角落,许多光源、灯具、涂油硬木地板、按颜色分类的书架、沙发、电视、书桌、植物”
2023-09-08 14:24:33
472
1
原创 【NLP】信息检索变得简单、不同类型及其工作原理
信息检索模型是信息检索中使用的数学和概念框架,用于表示和描述响应用户查询从集合中检索相关文档或信息的过程。信息检索是一个动态且不断发展的领域,它深刻地影响着我们在生活的各个方面访问和利用信息的方式,从日常网络搜索到学术研究和组织决策。信息检索模型的选择取决于检索任务的具体要求和特征以及可用的数据和资源。信息检索是许多信息系统的基本组成部分,该领域正在进行的研究重点是提高检索系统的准确性和效率,特别是在当今可用的数字信息量不断扩大的背景下。选择的系统类型取决于用户和组织的具体需求和目标。
2023-09-06 15:50:45
1140
原创 【NLP】LangChain 如何构建自定义知识聊天机器人
现在,解释这部分内容将会很广泛,所以这里有一个简单的例子,说明如何在 LangChain 中使用 Python 代理来解决一个简单的数学问题。为了与我们的法学硕士进行交互,我们将实例化 OpenAI 的 GPT 模型的包装器。在本文中,我将向您介绍 LangChain,并向您展示如何将其与 OpenAI 的 API 结合使用来创建这些改变游戏规则的工具。但它真正的亮点在于将其与前面讨论的矢量存储结合使用。剩下要做的就是结合我们所学到的知识来创建我们的特定用例——为我们提供专门的人工智能“代理”。
2023-09-04 14:43:34
854
原创 【ML】使DBSCAN 变得简单 & 如何使用 Scikit-Learn 进行 Python 教程
HDBSCAN 是“带有噪声的基于分层密度的空间聚类应用程序”的缩写,是原始 DBSCAN 算法的扩展,为基于密度的聚类添加了分层方法。它结合了层次聚类方法和基于密度的聚类方法的优点。DBSCAN(基于密度的噪声应用空间聚类)是一种流行的聚类算法,以查找任意形状的聚类及其在处理噪声方面的鲁棒性而闻名。包括 DBSCAN 在内的聚类算法为揭示数据中隐藏的结构和关系提供了宝贵的工具,这可以带来更深入的见解和更好的决策。请记住,算法的选择取决于数据集的大小、所需的聚类形状、噪声的存在以及数据的性质等因素。
2023-09-01 13:43:37
2013
原创 【ML】AdaBoost:实用介绍及如何使用 Python 进行分类和回归
无论您是寻求更高的准确性、对噪声的鲁棒性,还是更好地理解特征重要性,AdaBoost 的自适应增强原理都可以成为您的机器学习工具箱中的宝贵资产。尽管如此,请始终记住,任何算法的成功都取决于深思熟虑的预处理、仔细的超参数调整以及对您要解决的问题的清晰理解。AdaBoost 特别注重通过在数据的不同子集上顺序训练弱学习器(比随机猜测稍好的单个模型)的性能,并为错误分类的样本赋予更多权重。AdaBoost 背后的想法是,通过顺序关注先前弱学习器错误分类的样本,算法适应数据的特征并提高其整体预测能力。
2023-08-23 13:31:39
2683
原创 【ML】Dropout:增强鲁棒性和泛化性
过度拟合的产生是由于神经网络固有的复杂性,神经网络具有学习训练数据中复杂关系的能力,包括噪声和异常值。Dropout 的集成学习性质丰富了模型捕获数据中不同模式和关系的能力,最终提高了训练和测试数据的性能。通过在单个网络中引入受控随机性和集成学习,dropout 解决了过度拟合的挑战,并有助于创建更强大和可靠的模型。在这里,我们将探讨在神经网络中使用 dropout 的一些困难,并提供有效解决这些复杂问题的见解。这些挑战提醒我们,在将 dropout 纳入我们的模型时,深思熟虑的实验和适应的重要性。
2023-08-22 16:57:59
742
1
原创 【NLP】生成式人工智能简介
例如,OpenAI 开发的 GPT-3 等语言模型可以在大量文本数据上进行训练,然后用于生成不同语言的新的、连贯的且语法正确的文本(无论是在输入还是输出方面) ,以及从文本中提取相关特征,例如关键字、主题或完整摘要。在这样的技术背后,你可以认识到我们迄今为止在其他领域提到的许多模型——提示的语言理解、图像生成和图像生成的运动,以及人工智能作曲家制作的背景音乐。此功能有几个有趣的业务应用程序,例如生成用于训练计算机视觉模型的合成数据集、生成逼真的产品图像以及为虚拟现实和增强现实应用程序生成逼真的图像。
2023-08-17 10:12:58
1771
原创 了解元学习——如何利用更少的数据提高效率
未来拥有令人兴奋的可能性,包括能够适应不断变化的环境并从日益有限的数据中学习的更强大的模型。元学习,或者说学会学习,是一种机器学习方法,专注于改进学习过程,而不仅仅是学习特定的任务或问题。元学习旨在开发算法或技术,使模型能够根据学习多个相关任务的先前经验,以最少的数据和计算快速适应和学习新任务。通过关注学习过程,元学习技术使模型能够从有限的数据中学习并快速适应新任务,展现出卓越的泛化能力。元学习范式中的多种技术包括模型无关元学习 (MAML)、基于度量的元学习和记忆增强神经网络等。有哪些不同的元学习技术?
2023-08-17 08:50:13
743
1
原创 【AI】生成式人工智能用例和应用
随着时间的推移,生成器变得越来越好,可以创建更逼真的图像。初创公司 Jesper.ai 利用人工智能文字处理器将自动化提升到了新的水平,用这种革命性的工具取代了繁琐的写作任务,自动生成营销文案、职位描述等的全文。借助生成式人工智能,协作和生产力可以飙升至新的高度,从而腾出宝贵的时间来进行更具创造性和战略性的努力。除了生成新内容之外,文本生成人工智能工具还可以有效地执行许多其他与语言相关的任务,例如回答问题、完成不完整的文本、将文本分类为不同的类别、改写和改进内容以及就多个主题进行类似人类的讨论。
2023-08-10 13:52:53
1870
1
原创 【ML】结构化数据和非结构化数据的区别以及如何将非结构化数据转换为结构化数据
与以特定格式(例如表或数据库)组织的结构化数据不同,非结构化数据缺乏一致的结构或预定义的模式。然而,经过充分分析,它也可以提供有价值的见解,因为它将非结构化数据的灵活性与某些结构化数据组织结合起来。结构化数据以特定格式组织,例如表格或电子表格,而非结构化数据没有特定的形式或结构。结构化数据和非结构化数据之间的主要区别在于,结构化数据可以使用计算机算法轻松组织和分析。总体而言,结构化数据对于组织来说是宝贵的资源,因为它提供了可靠且一致的信息源,可用于制定数据驱动的决策。
2023-08-08 10:50:25
6828
原创 【ML】L1 和 L2 正则化解释、何时使用它们以及实际示例
最常用的正则化技术是 L1 正则化 (Lasso)、L2 正则化 (Ridge) 和弹性网络正则化。在实践中,L1 和 L2 正则化的组合(称为弹性网络正则化)通常用于利用这两种技术的优势,并在稀疏性和权重收缩之间找到平衡。请注意,这是从头开始的 L2 正则化的基本实现。因此,正则化技术和正则化参数的选择必须根据具体问题和数据集仔细选择和调整,以在模型性能的偏差和方差之间取得适当的平衡。值得注意的是,L1 和 L2 正则化之间的选择并不总是明确的,可能需要使用不同的正则化技术对模型的性能进行实验和评估。
2023-07-31 10:35:52
9681
2
原创 【DL】探索扩散模型:关键概念和应用的综合指南
人工智能中扩散模型的迭代过程是其功能的一个基本方面,涉及多次迭代或步骤以生成高质量的输出。为了理解这个过程,让我们更深入地研究扩散模型的工作原理。扩散模型是生成模型,旨在捕获给定数据集的基础分布。他们学习通过迭代地改进输出来生成类似于训练数据的新样本。该过程从初始输入或“噪声”样本开始,该样本通过模型。然后,模型应用概率变换来迭代更新样本,使其更接近所需的输出。在每次迭代期间,扩散模型都会生成潜在变量,充当数据的中间表示。这些潜在变量捕获训练数据中存在的基本特征和模式。
2023-07-31 10:26:18
719
原创 【NLP】图神经网络解释以及如何使用 PyTorch 使用
通过整合文本数据中固有的结构依赖性,GNN 提供了一种有前途的方法来处理复杂的 NLP 任务,例如文本分类。通过利用 GNN 的力量,我们可以开辟理解和分析文本数据的新途径,从而推动各种 NLP 应用的进步。结合 GNN 和 PyTorch 的优势,可以创建复杂的模型,有效捕获文本数据的结构特征,从而实现更准确、更稳健的文本分类。例如,在社交网络中,节点可以代表个人,边可以代表他们之间的友谊。GNN 提供了一种很有前途的方法来利用基于图的表示并捕获文本数据中的结构依赖性,从而提高各种 NLP 任务的性能。
2023-07-27 08:49:54
549
原创 【LLM】如何将开源基础模型训练成特定领域的LLM?
基础模型”一词是由斯坦福大学研究人员提出的,用于描述新型机器学习模型。这些模型不是为图像识别等特定任务而设计的,而是使用大规模自我监督学习在广泛、多样化的数据集上进行训练,从而可以针对各种下游任务进行微调。与名称所暗示的相反,基础模型 (FM) 并不是人工智能的基石,也不暗示 AGI(通用人工智能)。预训练:FM 使用大量数据和强大的计算能力进行了预训练,无需进一步训练即可使用。泛化:与针对特定任务的传统人工智能模型不同,FM 具有多功能性,旨在解决众多任务。
2023-07-26 09:24:20
1688
Helsinki-NLP/opus-100(en-zh)
2024-11-08
百度、马蜂窝和大众点评数据集(情感分析)
2023-06-29
百度、马蜂窝和大众点评数据集(情感分析)
2023-06-29
中文常用停用词表(stopwords)
2023-06-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人