
人工智能(AI)
文章平均质量分 94
人工智能利用计算机和机器模仿人类思维的问题解决和决策制定能力。
Sonhhxg_柒
Save your heart for someone who cares. #愿岁月清净 抬头遇见皆是柔情#
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【LLM】扩散模型与自回归模型:文本生成的未来对决
本文对比分析了自回归(AR)和扩散(DLM)两种语言模型。AR模型通过顺序预测下一个token实现文本生成,具有流畅性优势但存在错误传播问题;扩散模型则通过多步去噪过程并行生成文本,支持全局纠错但计算成本较高。文章详细阐述了两者的数学原理、架构设计和训练推理流程,并指出混合模型可能成为未来趋势,结合AR的流畅性和扩散的全局一致性优势。当前AR模型仍占主导地位,但扩散模型在多样性生成和细粒度控制方面展现出潜力,两者的融合或将催生更强大的下一代语言模型。原创 2025-08-07 21:00:00 · 690 阅读 · 0 评论 -
【LLM】揭秘AI黑箱,现代大模型的架构真相
文章深入剖析了现代大语言模型(LLM)的架构演进,以DeepseekV3为例,揭示了前沿AI模型的核心机制。虽然基础仍是矩阵运算,但现代LLM已发展出复杂架构:1)采用BPE分词和7168维嵌入空间处理文本;2)使用带因果掩码的多头注意力机制和旋转位置编码(RoPE)捕捉上下文关系;3)通过混合专家系统(MoE)实现条件计算,在保持推理效率的同时扩展模型容量;4)堆叠61层Transformer模块构建深层网络。现代LLM的成功不仅依赖架构创新,还需海量数据(14.8万亿词条)、强化学习和强大基础设施支持。原创 2025-08-04 19:00:00 · 705 阅读 · 0 评论 -
【NLP】使用 LangGraph 构建 RAG 的Research Multi-Agent
本文介绍了一个基于LangGraph开发的多智能体RAG研究工具,旨在解决复杂查询处理问题。系统采用混合搜索和重新排序技术检索文档,并引入自我纠正机制(包括人工参与的幻觉检查)来提高响应可靠性。项目构建了包含主图和子图的工作流程,主图负责路由查询、生成研究计划和验证响应,子图专注于多查询生成和文档检索。实验表明,该系统在复杂查询处理上优于传统RAG方法,能够准确提取表格数据并避免幻觉。文章还讨论了Agentic RAG面临的技术挑战(如延迟和评估问题),并指出其在企业应用中的潜力。原创 2025-06-26 21:00:00 · 1034 阅读 · 0 评论 -
【NLP】将 LangChain 与模型上下文协议 (MCP) 结合使用
MCP(模型上下文协议)是一种开源协议,旨在解决大型语言模型(LLM)与外部数据源的隔离问题。它采用客户端-服务器架构,标准化了AI代理与外部系统的连接方式,支持开发者构建可复用的模块化连接器。通过提供通用接口和预构建服务器,MCP实现了LLM与工具/数据源的安全、可扩展交互,使AI应用从孤立系统转变为深度集成的智能代理。示例展示了如何利用MCP连接数学计算工具与LangGraph代理,验证了其在实际应用中的可行性,为AI工具链提供了统一的数据交互范式。原创 2025-05-28 22:00:00 · 1454 阅读 · 0 评论 -
【LLM】什么是 MCP&ACP&ACA
想象一个统一的代理平台,其中 A2A 处理代理之间的交互,MCP 管理工具和数据的访问,ACP 风格的运行时插件可用于边缘或离线场景。然后是 ACP,它采用了完全不同的方法。不同的供应商推出各自风格的 A2A 或 MCP,最终导致一片混乱——就像早期的 Web 服务一样,如果没有大量的粘合代码,任何事物都无法与其他事物进行通信。与面向云的协议(例如 A2A)或上下文路由协议(例如 MCP)不同,ACP 旨在实现本地优先、实时代理编排,具有最小的网络开销以及在共享运行时内部署的代理之间的紧密集成。原创 2025-05-06 19:00:00 · 103 阅读 · 0 评论 -
【LLM】为什么最新的 LLM 采用 MoE(专家混合)架构
混合专家 (MoE) 架构是一种神经网络设计,通过为每个输入动态激活一组称为专家的专用网络子集来提高效率和性能。门控网络确定要激活哪些专家,从而实现稀疏激活并降低计算成本。MoE 架构由两个关键组件组成:门控网络和专家。让我们来分解一下:从本质上讲,MoE 架构就像一个高效的交通系统,根据实时条件和所需目的地将每辆车(或在本例中为数据)引导至最佳路线。每个任务都会被路由到最适合处理该特定任务的专家或子模型。这种动态路由可确保为每项任务使用最有能力的资源,从而提高模型的整体效率和有效性。原创 2025-01-13 17:26:44 · 1540 阅读 · 0 评论 -
【LLM】如何提高 RAG 模型的性能
最有效的 RAG 系统是根据您的独特需求和目标量身定制的系统,以实现最佳性能,而不会影响整体效率。这允许模型捕获更准确的值。这些扩展已经提供了一种增强 LLM 功能的强大方法,允许 LLM 检索和整合最新信息,确保您的模型保持相关性和准确性。尽管在实施检索增强生成 (RAG) 系统时,利用最先进的 LLM 通常可以保证卓越的内容生成和分析能力,但选择最复杂的 LLM 并不总是最好的选择。- 使用编码器模型将查询编码为向量表示,编码器模型通常是预训练的语言模型,如 BERT 或其他基于转换器的模型。原创 2025-01-13 14:20:18 · 592 阅读 · 0 评论 -
【NLP】使用 PyTorch 从头构建自己的大型语言模型 (LLM)
如果我们在 n 维空间中绘制一个向量,看起来相似的物体(如狗和猫)将彼此靠近,而看起来不相似的物体(如学校和家庭)的嵌入向量将位于更远的地方。为此,我们将使用一种流行的标记器,称为 BPE 标记器,这是一种子词标记器,正在 GPT3 等模型中使用。:前馈网络使用深度神经网络来学习两个线性层(第一层有 d_model 节点,第二层有 d_ff 节点,根据注意力论文分配值)中嵌入向量的所有特征,并且将 ReLU 激活函数应用于第一线性层的输出,为嵌入值提供非线性,并应用 dropout 以进一步避免过度拟合。原创 2024-11-11 08:58:04 · 1585 阅读 · 0 评论 -
【NLP】2024 年十大 RAG 框架 Github
检索增强生成 (RAG) 已成为增强大型语言模型功能的强大技术。RAG 框架将基于检索的系统与生成模型的优势相结合,从而实现更准确、更情境化和更及时的响应。随着对复杂 AI 解决方案的需求不断增长,GitHub 上出现了许多开源 RAG 框架,每个框架都提供独特的功能和能力。RAG 框架有什么作用?RAG 工作流程(RAG) 是一种 AI 框架,它通过整合外部知识源来增强大型语言模型 (LLM) 的功能。原创 2024-11-08 14:26:55 · 1874 阅读 · 0 评论 -
【NLP】使用 SpaCy 通过 LLM 合成数据微调 NER 模型
现在,在这篇文章中,我们将更进一步,使用 SpaCy 训练各种 NER 模型,比较它们的性能,并检查它们在我们合成生成的数据集中识别实体的能力。中,我们探讨了如何使用 Qwen 生成合成数据,以自动化命名实体识别 (NER) 的注释过程。然后,我们将数据分成训练集 (80%) 和验证集 (20%),使我们能够在训练期间评估模型性能。对象对于训练 SpaCy 模型至关重要,因为它们封装了输入(原始文本)和预期输出(实体)。方法恢复训练,该方法初始化优化器。在这里,我们加载了 SpaCy 的预训练中文模型,原创 2024-11-08 09:59:18 · 1618 阅读 · 0 评论 -
【NLP】使用 SpaCy、ollama 创建用于命名实体识别的合成数据集
生成合成数据可以创建大型注释数据集,而无需耗时且昂贵的手动标记过程,从而可以快速训练用于各种 NER 应用程序的模型。示例充当“指令调整”的一种形式,向模型展示如何以特定方式响应,从而降低生成的输出中出现错误和不一致的可能性。在我们的案例中,使用多个输入文本示例与相应的 JSON 输出配对,向模型展示如何一致地识别和格式化城市名称。命名实体识别 (NER) 是自然语言处理 (NLP) 中的一项重要任务,用于自动识别和分类文本中的实体,例如人物、位置、组织等。接下来,我们创建一个查询 LLM 的系统提示。原创 2024-11-07 19:29:14 · 1610 阅读 · 0 评论 -
【NLP】利用 RAG 模分块技术提升文档处理效能
有效的分块,即将文档拆分为可管理的片段的过程,对于优化 RAG 系统的检索和嵌入步骤至关重要。通过利用 SBERT 和先进的平滑和聚类技术,这种方法比传统的文档分割方法有了显著的改进。此外,我们将介绍一种新颖的主题感知分块方法,该方法利用句子嵌入来识别文档中的主题转变。传统的分割技术(从简单的基于规则的方法到高级机器学习算法)都难以识别主题转换的精确点。通过采用这种方法,RAG 系统可以在其生成的内容中实现更高的准确性和相关性,使其更有效地完成复杂且知识密集型的任务。此方法非常适合需要连贯完整思想的任务。原创 2024-07-09 11:28:24 · 1493 阅读 · 0 评论 -
【NLP】RAG 应用中的调优策略
检索增强生成应用程序的调优策略没有一种放之四海而皆准的算法能够最好地解决所有问题。本文通过数据科学家的视角审视检索增强生成(RAG)管道。它讨论了您可以尝试提高 RAG 管道性能的潜在“超参数”。与深度学习中的实验类似,例如,数据增强技术不是超参数,而是可以调整和实验的旋钮,本文还将介绍您可以应用的不同策略,这些策略本身不是超参数。本文涵盖以下按相关阶段排序的“超参数”。在RAG 管道的请注意,本文涵盖了 RAG 的文本用例。对于多模式 RAG 应用,可能需要考虑不同的因素。原创 2023-12-11 10:40:11 · 1988 阅读 · 0 评论 -
【NLP】培训LLM的不同方式
在大型语言模型(LLM)领域,存在多种具有不同手段、要求和目标的培训机制。由于它们有不同的用途,因此重要的是不要将它们相互混淆并了解它们适用的不同场景。在本文中,我想概述一些最重要的训练机制,包括预训练微调人类反馈强化学习 (RLHF)和适配器。此外,我将讨论提示的作用,提示本身不被认为是一种学习机制,并阐明提示调整的概念,它在提示和实际训练之间架起了一座桥梁。预训练预训练是最基本的训练方式,与您所知道的其他机器学习领域的训练相同。原创 2023-11-22 17:19:37 · 1044 阅读 · 0 评论 -
【NLP】LLM 中 100K 上下文窗口背后的秘密:所有技巧都集中在一处
具有条件计算的 COLT5 Transformer 层的概述。人们想要申请法学硕士的重要用例之一是“将大量自定义数据放入LLM”(与公司或特定问题相关的文档、各种异构文本等)并提出有关该特定数据的问题,不是LLM在培训期间看到的一些来自互联网的抽象数据。我学到了很多东西,我希望你也学到了,现在我们可以猜测这些具有数十亿参数的大型语言模型是如何在前所未有的 65-100K 令牌上下文窗口中进行训练的。次迭代,因为上下文长度变得更大(为了简单起见,我们假设它是线性的,根据任务的不同,它可能是高估或低估)。原创 2023-11-17 11:33:13 · 1747 阅读 · 0 评论 -
【NLP】理解 Llama2:KV 缓存、分组查询注意力、旋转嵌入等
是 Meta AI 的开创性作品,作为首批高性能开源预训练语言模型之一闯入了 AI 场景。值得注意的是,,尽管其尺寸只是其一小部分。您无疑听说过 LLaMA 令人印象深刻的性能,但您是否想知道是什么让它如此强大?图 1:原始 Transformer 和 LLama 之间的架构差异检查图 1 揭示了从原始 Transformer 到突破性的 LLaMA 架构的深刻转变。LLaMA 2.0 牢固地植根于 Transformer 框架的基础,但它引入了独特的创新——SwiGLU和。原创 2023-11-13 13:58:56 · 4602 阅读 · 0 评论 -
【NLP】大型语言模型,ALBERT — 用于自监督学习的 Lite BERT
介绍近年来,大型语言模型的发展突飞猛进。BERT 成为最流行、最高效的模型之一,可以高精度地解决各种 NLP 任务。BERT 之后,一系列其他模型随后出现,也表现出了出色的效果。显而易见的趋势是,。深度学习研究表明,此类技术通常会带来更好的结果。不幸的是,机器学习世界已经解决了有关法学硕士的几个问题,可扩展性已成为有效训练、存储和使用它们的主要障碍。因此,最近开发了新的LLM来解决可扩展性问题。在本文中,我们将讨论 2020 年发明的 ALBERT,其目标是显着减少 BERT 参数。原创 2023-11-13 10:49:58 · 938 阅读 · 1 评论 -
【AI】自回归 (AR) 模型使预测和深度学习变得简单
通过为问题选择正确的工具,无论是基本的 AR 模型还是更复杂的模型,从业者都可以做出更准确的预测,并从时间序列数据中发现更深入的见解。深度学习中的自回归是指应用深度神经网络对序列数据进行建模和预测,其中序列中的当前值取决于先前的值。总体而言,自回归模型是时间序列分析和 NLP 的基本概念,为理解、预测和生成序列数据提供了强大的工具。在接下来的部分中,我们将从 AR(p) 模型的基础知识和自回归系数的作用开始,更深入地研究自回归模型的机制。自回归建模的核心是 AR(p) 模型,其中“p”代表模型的阶数。原创 2023-11-10 11:22:51 · 8207 阅读 · 1 评论 -
【NLP】DeepSpeed-FastGen:通过 MII 和 DeepSpeed-Inference 为LLM生成高通量文本
一、简介GPT-4 和 LLaMA 等大型语言模型 (LLM) 已成为服务于各个级别的人工智能应用程序的主要工作负载。从一般聊天模型到文档摘要,从自动驾驶到软件堆栈每一层的副驾驶,大规模部署和服务这些模型的需求猛增。虽然 DeepSpeed、PyTorch 等框架可以在 LLM 训练期间定期实现良好的硬件利用率,但这些应用程序的交互性和开放式文本生成等任务的较差算术强度已成为现有系统中推理吞吐量的瓶颈。为此,由 PagedAttention 提供支持的和等研究系统显着提高了 LLM 的推理性能。翻译 2023-11-10 11:00:29 · 1775 阅读 · 2 评论 -
【LLM】低成本进行半天的训练可产生与主流大型模型、开源且无商业的特定领域 LLM 解决方案类似的结果
在常见的英语评测排名中可以观察到,在MMLU排名中,Colossal-LLaMA-2-7B-base在低成本持续预训练的支持下,克服了灾难性遗忘的问题。用户只需要上传自己的数据进行微调,并且可以将微调后的模型以API的形式部署。因此,在兼顾训练质量和效率的情况下,经过大量实验,Colossal-AI团队决定将LLaMA-2的词汇量从原来的32,000个单词扩大到69,104个。纵观整个训练损失记录,很明显,在利用 Colossal-AI 系统的成本效益功能的同时,模型的收敛性也得到了很好的保留。翻译 2023-09-27 17:06:41 · 498 阅读 · 0 评论 -
【LLM】如何使用单个GPU 微调 Llama2
自然语言处理领域通过 ChatGPT 等大型语言模型 (LLM) 取得了令人难以置信的进步。然而,这些模型都有其局限性。他们可能会提出隐私问题,遵守一套固定的规则,并仅限于最后一次培训的日期。PaLM 和 GPT-3.5 等预训练 LLM 的另一个限制不是。这意味着开发人员和研究人员无法访问模型的内部工作原理,从而限制了他们根据特定用例微调和定制模型的能力。幸运的是,新时代已经到来,是Meta推出的开源LLM,它允许,减轻隐私问题并实现个性化的AI体验。此外,创新的。原创 2023-09-14 09:36:40 · 2135 阅读 · 3 评论 -
【LLM】微调LLM:LoRA 还是全参数?Llama 2 的深入分析
在本文中,我将全参数微调与 LoRA 进行比较,并回答有关这两种技术的优缺点的问题。使用 LoRA 涉及服务效率和模型质量之间的权衡,这根据手头的具体任务而变化。此外,我还提供有关如何通过智能提示技术稳定 LoRA 训练的见解。进一步表明,采用较低的学习率可以提高所得模型检查点的可靠性。近几个月来,开源LLM与 OpenAI 的专有模型展开了一场竞赛。提高开源 LLM 性能的一种流行策略是全参数微调。在该方法中,所有模型的参数都被优化。原创 2023-09-08 14:35:34 · 4470 阅读 · 2 评论 -
【AI】Diffusion Models
具有讽刺意味的是,扩散模型在图像中生成文本方面非常糟糕,尽管图像是根据文本提示生成的,而扩散模型可以很好地处理文本提示。“全身赛博朋克风格的雕塑,是一位年轻英俊的哥伦比亚王子半机器人,胸部开口,暴露出电路和电火花,发光的粉红色眼睛,蓝色花冠,流动的鲑鱼色丝绸,织物,猛禽。“极其详细的广角照片,大气,夜晚,反射,屡获殊荣的当代现代室内设计公寓客厅,舒适而平静,织物和纺织品,几何木雕,色彩缤纷的口音,反光黄铜和铜装饰,阅读角落,许多光源、灯具、涂油硬木地板、按颜色分类的书架、沙发、电视、书桌、植物”原创 2023-09-08 14:24:33 · 509 阅读 · 1 评论 -
【NLP】LangChain 如何构建自定义知识聊天机器人
现在,解释这部分内容将会很广泛,所以这里有一个简单的例子,说明如何在 LangChain 中使用 Python 代理来解决一个简单的数学问题。为了与我们的法学硕士进行交互,我们将实例化 OpenAI 的 GPT 模型的包装器。在本文中,我将向您介绍 LangChain,并向您展示如何将其与 OpenAI 的 API 结合使用来创建这些改变游戏规则的工具。但它真正的亮点在于将其与前面讨论的矢量存储结合使用。剩下要做的就是结合我们所学到的知识来创建我们的特定用例——为我们提供专门的人工智能“代理”。原创 2023-09-04 14:43:34 · 873 阅读 · 0 评论 -
【ML】Dropout:增强鲁棒性和泛化性
过度拟合的产生是由于神经网络固有的复杂性,神经网络具有学习训练数据中复杂关系的能力,包括噪声和异常值。Dropout 的集成学习性质丰富了模型捕获数据中不同模式和关系的能力,最终提高了训练和测试数据的性能。通过在单个网络中引入受控随机性和集成学习,dropout 解决了过度拟合的挑战,并有助于创建更强大和可靠的模型。在这里,我们将探讨在神经网络中使用 dropout 的一些困难,并提供有效解决这些复杂问题的见解。这些挑战提醒我们,在将 dropout 纳入我们的模型时,深思熟虑的实验和适应的重要性。原创 2023-08-22 16:57:59 · 790 阅读 · 1 评论 -
【NLP】生成式人工智能简介
例如,OpenAI 开发的 GPT-3 等语言模型可以在大量文本数据上进行训练,然后用于生成不同语言的新的、连贯的且语法正确的文本(无论是在输入还是输出方面) ,以及从文本中提取相关特征,例如关键字、主题或完整摘要。在这样的技术背后,你可以认识到我们迄今为止在其他领域提到的许多模型——提示的语言理解、图像生成和图像生成的运动,以及人工智能作曲家制作的背景音乐。此功能有几个有趣的业务应用程序,例如生成用于训练计算机视觉模型的合成数据集、生成逼真的产品图像以及为虚拟现实和增强现实应用程序生成逼真的图像。原创 2023-08-17 10:12:58 · 1866 阅读 · 0 评论 -
了解元学习——如何利用更少的数据提高效率
未来拥有令人兴奋的可能性,包括能够适应不断变化的环境并从日益有限的数据中学习的更强大的模型。元学习,或者说学会学习,是一种机器学习方法,专注于改进学习过程,而不仅仅是学习特定的任务或问题。元学习旨在开发算法或技术,使模型能够根据学习多个相关任务的先前经验,以最少的数据和计算快速适应和学习新任务。通过关注学习过程,元学习技术使模型能够从有限的数据中学习并快速适应新任务,展现出卓越的泛化能力。元学习范式中的多种技术包括模型无关元学习 (MAML)、基于度量的元学习和记忆增强神经网络等。有哪些不同的元学习技术?原创 2023-08-17 08:50:13 · 807 阅读 · 1 评论 -
【AI】生成式人工智能用例和应用
随着时间的推移,生成器变得越来越好,可以创建更逼真的图像。初创公司 Jesper.ai 利用人工智能文字处理器将自动化提升到了新的水平,用这种革命性的工具取代了繁琐的写作任务,自动生成营销文案、职位描述等的全文。借助生成式人工智能,协作和生产力可以飙升至新的高度,从而腾出宝贵的时间来进行更具创造性和战略性的努力。除了生成新内容之外,文本生成人工智能工具还可以有效地执行许多其他与语言相关的任务,例如回答问题、完成不完整的文本、将文本分类为不同的类别、改写和改进内容以及就多个主题进行类似人类的讨论。原创 2023-08-10 13:52:53 · 1941 阅读 · 1 评论 -
【ML】结构化数据和非结构化数据的区别以及如何将非结构化数据转换为结构化数据
与以特定格式(例如表或数据库)组织的结构化数据不同,非结构化数据缺乏一致的结构或预定义的模式。然而,经过充分分析,它也可以提供有价值的见解,因为它将非结构化数据的灵活性与某些结构化数据组织结合起来。结构化数据以特定格式组织,例如表格或电子表格,而非结构化数据没有特定的形式或结构。结构化数据和非结构化数据之间的主要区别在于,结构化数据可以使用计算机算法轻松组织和分析。总体而言,结构化数据对于组织来说是宝贵的资源,因为它提供了可靠且一致的信息源,可用于制定数据驱动的决策。原创 2023-08-08 10:50:25 · 7264 阅读 · 0 评论 -
【ML】L1 和 L2 正则化解释、何时使用它们以及实际示例
最常用的正则化技术是 L1 正则化 (Lasso)、L2 正则化 (Ridge) 和弹性网络正则化。在实践中,L1 和 L2 正则化的组合(称为弹性网络正则化)通常用于利用这两种技术的优势,并在稀疏性和权重收缩之间找到平衡。请注意,这是从头开始的 L2 正则化的基本实现。因此,正则化技术和正则化参数的选择必须根据具体问题和数据集仔细选择和调整,以在模型性能的偏差和方差之间取得适当的平衡。值得注意的是,L1 和 L2 正则化之间的选择并不总是明确的,可能需要使用不同的正则化技术对模型的性能进行实验和评估。原创 2023-07-31 10:35:52 · 10069 阅读 · 2 评论 -
【DL】探索扩散模型:关键概念和应用的综合指南
人工智能中扩散模型的迭代过程是其功能的一个基本方面,涉及多次迭代或步骤以生成高质量的输出。为了理解这个过程,让我们更深入地研究扩散模型的工作原理。扩散模型是生成模型,旨在捕获给定数据集的基础分布。他们学习通过迭代地改进输出来生成类似于训练数据的新样本。该过程从初始输入或“噪声”样本开始,该样本通过模型。然后,模型应用概率变换来迭代更新样本,使其更接近所需的输出。在每次迭代期间,扩散模型都会生成潜在变量,充当数据的中间表示。这些潜在变量捕获训练数据中存在的基本特征和模式。原创 2023-07-31 10:26:18 · 751 阅读 · 0 评论 -
【LLM】优化预训练模型:参数高效微调 (PEFT) 指南
参数高效微调(PEFT)是自然语言处理(NLP)中使用的一种技术,用于提高预训练语言模型在特定下游任务上的性能。它涉及重用预训练模型的参数并在较小的数据集上对其进行微调,与从头开始训练整个模型相比,这可以节省计算资源和时间。PEFT 通过冻结预训练模型的某些层并仅微调特定于下游任务的最后几层来实现这种效率。这样,模型就可以以更少的计算开销和更少的标记示例来适应新任务。尽管 PEFT 是一个相对新颖的概念,但自从引入迁移学习以来,更新最后一层模型已经在计算机视觉领域得到实践。原创 2023-07-17 16:59:42 · 5767 阅读 · 1 评论 -
【CV】实时人脸检测 | 使用 OpenCV 进行口罩检测
幸运的是,我们有一个数据集,其中包含带面具和不带面具的图像脸部。此外,由于 faces 变量包含包含脸部的矩形的左上角坐标、高度和宽度,因此我们可以使用它来获取脸部的帧,然后对该帧进行预处理,以便可以将其输入到模型中进行预测。为此,我们将使用第一部分中所示的方法检测具有面部的帧,然后在预处理后将它们传递到我们的模型。虽然这个模型不如我们在这里训练的模型那么有效,但它有一个额外的功能,可以检测未正确佩戴的口罩。因此,当检测静态图像中的人脸和检测实时视频流中的人脸时,它们之间没有太大区别。原创 2023-07-03 13:24:09 · 2709 阅读 · 1 评论 -
【NLP】文本聚类和主题建模
尽管分类等监督技术在过去几年中在业界占据主导地位,但文本聚类等无监督技术的潜力也不容低估。文本聚类旨在根据语义内容、含义和关系对相似文本进行分组,如图所示。就像我们在第 XXX 章的密集检索中使用文本嵌入之间的距离一样,聚类嵌入允许我们根据相似性对存档中的文档进行分组。由此产生的语义相似文档集群不仅有助于对大量非结构化文本进行有效分类,而且还可以进行快速探索性数据分析。随着允许文本的上下文和语义表示的大型语言模型 (LLM) 的出现,文本聚类的功能在过去几年中显着增强。原创 2023-06-25 10:30:10 · 757 阅读 · 0 评论 -
【NLP】每个NLP工程师都应该知道的10 种不同的 NLP 技术
例如,当我们在亚马逊上搜索产品时,假设我们不仅希望看到我们在搜索栏中输入的确切单词的产品,还希望看到我们输入的单词的其他可能形式的产品。在英语中,相似的单词根据其使用的时态及其在句子中的位置而出现不同的情况。关键字提取技术在 NLP 应用程序中非常有用,在这种应用程序中,企业想要根据评论识别客户遇到的问题,或者如果您想要从最近的新闻项目中识别感兴趣的主题。在上面的句子中,我们尝试预测的单词是 sunny,使用输入作为单词“The day is Bright”的 one-hot 编码向量的平均值。原创 2023-06-21 16:52:50 · 4594 阅读 · 1 评论 -
【CV】使用 OpenCV 将照片变成卡通
总之,使用 OpenCV 将图像转换为卡通是一种有趣且富有创意的方式,可以为您的照片赋予新的生命。较小的内核大小和 sigma 值会导致较少的模糊,而较大的值会导致更多的模糊。较小的值会产生较细的线条,而较大的值会产生较粗的线条。同样,较小的值会导致较少的模糊,而较大的值会导致更多的模糊,这会影响铅笔素描的整体外观。较小的值将导致较少的模糊,而较大的值将导致更多的模糊。较小的值会产生较细的线条,而较大的值会产生较粗的线条。会导致较少的颜色,而较大的值会导致较多的颜色,这会影响卡通图像的整体外观。原创 2023-06-26 10:51:52 · 1331 阅读 · 1 评论 -
【NLP】使用混合精度技术加速大型语言模型
由于大型语言模型 (LLM) 的计算要求和内存占用量大,因此训练和使用它们的成本很高。本文将探讨如何利用低精度格式将训练和推理速度提高 3 倍,同时不影响模型精度。尽管我们主要关注大型语言模型示例,但这些技术中的大多数都是通用的,也适用于其他深度学习架构。翻译 2023-06-19 08:42:24 · 1944 阅读 · 2 评论 -
【CV】如何使用 YOLOv8 进行推理并使用自定义数据进行再训练
通过使用我们自己的数据训练和微调 YOLO 模型的能力,物体检测任务的可能性是无限的。通过本文提供的实现和资源,我们希望您能够将这些技术应用到您自己的项目中,并利用 YOLO 的功能。在这种情况下,至关重要的是准备一个新的数据集并用该数据集重新训练模型,确保模型能够准确地检测到我们想要检测的对象。YOLOv8 由 Alexey Bochkovskiy 和他在 Ultralytics 的团队开发,代表了一种尖端的对象检测算法,其性能优于 YOLO(You Only Look Once)系列中的前辈。原创 2023-06-16 09:08:07 · 7153 阅读 · 2 评论 -
【CV】从 YOLO 到 YOLOv8:追踪目标检测算法的演变
传统的物体检测器通常是离线训练的,因此研究人员旨在开发改进的训练方法,以在不增加推理成本的情况下提高物体检测器的准确性。它用于进一步提高模型的准确性,而不会产生大量的计算成本。YOLOv5 的发布进一步加剧了 YOLOv4 的争议,YOLOv5 是 Ultralytics 团队开发的非官方版本,同样与 Joseph Redmon 或他的团队无关。然而,如果你开始问我 YOLO 的细节——为什么我要为那个项目使用这个版本,最新的改进是什么,YOLO 的世界发生了什么——我可能会告诉你是时候喝杯咖啡休息了。原创 2023-06-14 17:21:01 · 1046 阅读 · 0 评论 -
【CV】扩散模型(Diffusion Models)
2020 年底,一类鲜为人知的称为扩散模型的模型开始在机器学习领域引起轰动。研究人员弄清楚了如何使用这些模型生成质量高于以往技术的合成图像。随后出现了一系列论文,提出了改进和修改的建议,进一步提高了质量。到 2021 年底,像 GLIDE 这样的模型在文本到图像的任务上展示了令人难以置信的结果,几个月后,这些模型通过 DALL-E 2 和 Stable Diffusion 等工具进入了主流。这些模型使任何人都可以轻松地生成图像,只需输入他们想要看到的内容的文本描述即可。原创 2023-05-24 11:51:59 · 760 阅读 · 0 评论