
人工智能
文章平均质量分 90
讲解关于人工智能相关的技术
Hello.Reader
so far away
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
“混搭”大模型蓝图(通用而强)局部注意力 × SSM × 检索 × 工具 × Entmax 稀疏融合
这套“局部注意力 × SSM × 检索 × 工具 × Entmax”的混搭蓝图,本质是把表征、记忆、知识、计算、选择让近场和远程不再二选一;让事实与计算外包到最擅长的系统;用稀疏门控让模型学会克制与选择。在实践中,它能以更低复杂度与更强可控性支撑更长的上下文与更复杂的任务,成为“通用而强”的默认基线。原创 2025-08-14 10:00:00 · 363 阅读 · 0 评论 -
SpaceFold一种受物理启发的长上下文“折叠空间”注意力机制(个人假设理论)
标准注意力在序列长度LLL上具有OL2O(L^2)OL2的时间与内存复杂度,难以覆盖百万级上下文与低延迟流式场景。本文提出:借鉴物理学中的快速多极法(FMM)与多重网格/重整化思想,将远距离交互折叠到少量“锚点”(远场摘要)上,仅在局部邻域内做精算(近场精算);并结合可学习坐标扭曲与双曲几何位置编码,在表示空间中把“语义上远但相关”的 token“拉近”。在推理阶段,SFA 的时间/显存复杂度分别约为OLlogLOLlogL(或OLLOLL。原创 2025-08-14 07:30:00 · 323 阅读 · 0 评论 -
一文读懂注意力机制从上手案例到工程实现
线性层用 xavier/kaiming;注意 LayerNorm 放置(Pre-LN 更稳定)。:FP16/BF16 要注意溢出;Causal mask 在解码器里必须启用。:常见 8、12、16。过多会增常数开销且每头维度过小。,是现代 Transformer 的要害。差异只在于“怎么打分”。想象你在看一段英文句子,想翻译其中“维度相同(通常通过线性投影满足)。来自同一序列(例如同一句话)。来自编码端(经典翻译器结构)。,并把相关信息“聚合”成答案。更相似,模型更“注意”到。你会下意识地在上下文里。原创 2025-08-14 07:15:00 · 208 阅读 · 0 评论 -
用好 Elasticsearch JS OpenTelemetry、事件总线、关联 ID 与 X-Opaque-Id 全攻略
options.openTelemetry = { enabled: false } // 全局禁用})// 必须“同步返回”// 典型做法:从你的 trace context / logger 里取一个短 ID${cloud : {原创 2025-08-14 07:00:00 · 261 阅读 · 0 评论 -
Nadaraya–Watson 就是最朴素的注意力层
NW 核回归 = 注意力加权平均的白盒范式:权重由“查询–键”的核相似度(或点积+偏置)决定;非参数简洁可解释;带参数表达力强、与 Transformer 一步到位;结合kNN 截断/索引/降维,能在大规模场景下既稳又快。原创 2025-08-13 09:13:38 · 538 阅读 · 0 评论 -
注意力机制(Attention)从直觉到工程—以「动物世界报道」为例
注意力(Attention)在现代深度学习中的作用可概括为:基于目标的动态加权汇聚。它以查询(Q)表示当前目标/意图,以键(K)描述候选信息的“可匹配性”,以值(V)承载真正要汇聚的内容,通过 softmax(QKᵀ/√d + mask) 得到权重,再对 V 加权求和。本文首先以“帮我写一篇关于动物世界的报道”为贯穿案例,解释注意力如何让模型选对信息、写对风格、排好结构;继而系统讲解注意力的数学形式、Self/Cross/Multi-Head、掩蔽与数值稳定、位置编码、可视化方法,以及从零实现的 NumPy原创 2025-08-11 17:24:14 · 783 阅读 · 0 评论 -
gpt-oss 全量技术解读
全文覆盖 gpt-oss(120b/20b)的能力与落地方案:Harmony 与 Agent、各推理后端的启动方式、环境与权重下载、单卡 80GB 运行要点、Clients 接入与安全实践,助力从验证到部署的高效实施。原创 2025-08-09 11:27:44 · 794 阅读 · 0 评论 -
序列搜索策略从传统算法到大模型时代的新解码
本文系统介绍了自然语言生成中的搜索解码策略。首先分析贪心搜索、穷举搜索和束搜索等经典方法,剖析其优缺点和适用场景。接着重点探讨了大模型时代的新型解码技术,包括Top-p采样、对比搜索、Speculative Decoding等,分析了算法原理和实际应用。文章还提供了选型建议,针对不同需求场景推荐相应策略。最后展示了Top-p与对比搜索结合的伪码实现,并展望了未来发展方向。全文既涵盖了基础理论,又关注前沿进展,为在实际项目中优化生成效果提供了实用指导。原创 2025-08-08 07:00:00 · 693 阅读 · 0 评论 -
解读 gpt-oss-120b 和 gpt-oss-20b开源模型
OpenAI发布开源大模型GPT-OSS,包含120B和20B两个版本,采用Apache 2.0许可,支持商用和二次开发。120B参数在性能上接近o4-mini,20B接近o3-mini,优化后可在单张80GB或16GB GPU上运行。模型采用MoE架构、RoPE编码等技术,支持128k上下文,预训练以STEM和编程语料为主。提供SFT和RL训练流程,三档推理模式可调。在Codeforces、MMLU等基准测试中表现优异。开放CoT推理过程,并推出50万美元红队挑战赛加强安全审查。模型支持Hugging F原创 2025-08-07 11:39:49 · 1100 阅读 · 0 评论 -
以 Eland 玩转 Elasticsearch 8.12 Learning-to-Rank
Elasticsearch 8.12.0引入Serverless LTR功能,可直接在搜索重排阶段调用机器学习模型,解决传统BM25相关性不足的问题。该方案通过Python(Eland+XGBoost/LightGBM/scikit-learn)实现端到端流程:1)定义特征抽取模板;2)采集训练数据;3)训练排序模型;4)一键部署至ES集群。相比外部微服务方案,具有运维简单、延迟低等优势。使用时需注意特征数量控制(20-40个)、训练数据采集性能优化等实践要点。新特性适合需要结合业务指标(点击率、销量等)优原创 2025-08-07 11:16:21 · 605 阅读 · 0 评论 -
LangExtract用 LLM 一键完成长文档信息抽取与可视化
LangExtract 是 Google 开源的指令式信息抽取框架,可同时兼容 Gemini、OpenAI 及本地 Ollama 模型。它通过“分块+并行+多轮抽取”解决长文档难题,并以源文本锚点保证结果可追溯,输出格式严格遵循用户自定义 JSON Schema。此外,LangExtract 支持一键生成交互式 HTML 文件,方便快速审阅与验证抽取实体。本文系统介绍了其核心特性、安装与快速上手三步法,以及在医疗、金融等场景中的实战经验与踩坑提示,帮助开发者低成本构建可靠的结构化信息抽取流水线。原创 2025-08-07 10:42:11 · 703 阅读 · 0 评论 -
BLEU 指标从原理到落地实践
机器翻译(MT)与文本生成系统炙手可热,可如何快速、客观地判断“模型翻译得好不好”?自 Papineni 等人在 2002 年提出BLEU(Bilingual Evaluation Understudy)以来,它一直是学术界和工业界使用最广泛、最具历史意义的自动评估指标之一。本文将系统梳理 BLEU 的理论基础、计算流程、优缺点以及工程落地细节,并给出可复制的代码示例,帮助你在项目里正确使用 BLEU。原创 2025-08-07 07:00:00 · 1827 阅读 · 0 评论 -
FastMCP 2.0 服务器运行详解
FastMCP 2.0 提供了多种服务器启动方式:1)本地开发推荐使用 run() 和 STDIO 协议;2)Web 服务首选 Streamable HTTP 协议;3)异步环境使用 run_async()。CLI 工具支持一键启动、依赖管理和实时调试,同时支持自定义 Web 路由和健康检查。SSE 协议已弃用,建议迁移到 HTTP。部署方案涵盖 Docker、Serverless 和 K8s 等多种场景,开发者可根据需求灵活选择传输协议和运行方式。原创 2025-08-06 10:58:57 · 538 阅读 · 0 评论 -
5 分钟快速上手 FastMCP 2.0从 “Hello, MCP!” 到可调用的 LLM 工具
FastMCP 是一个用于构建和调用 MCP 工具的 Python 框架。本文介绍了快速入门方法:1) 使用 uv/pip 安装 fastmcp;2) 创建服务器文件定义工具函数(@mcp.tool装饰器);3) 通过异步Client或CLI命令(fastmcp run)调用工具。框架支持多工具注册、多种传输协议,并提供了生产部署方案。后续可扩展资源管理、LLM集成等高级功能。该框架简化了工具开发流程,支持Python直接运行和CLI托管两种模式。原创 2025-08-06 10:52:18 · 308 阅读 · 0 评论 -
FastMCP 2.0 安装与升级详解
FastMCP提供三种安装方式:普通项目推荐uv add fastmcp,一次性体验使用uv pip install fastmcp,开发者模式需git clone加uv sync。安装后通过fastmcp version验证版本。从旧版升级只需修改导入语句为from fastmcp import FastMCP。开发环境需运行pytest测试和pre-commit代码检查。注意minor版本可能包含破坏性变更,生产环境建议锁定版本。常见问题包括命令未找到、安装原创 2025-08-06 10:46:10 · 761 阅读 · 0 评论 -
FastMCP 2.0用最 Pythonic 的方式让 LLM 连接一切
FastMCP 2.0 = MCP 标准 + 全生命周期工具链开发:装饰器注册,一行mcp.run()起服务测试:自带 Mock & 回放,单元/契约测试全覆盖部署:CLI 一键 Docker/Serverless,上 Prod 无痛运维:Auth、监控、代理、组合统统内置如果你希望像写 FastAPI 一样快速打造面向 LLM 的工具集,FastMCP 2.0 会是目前最省心、最 Pythonic 的选择。,让你的 LLM 拿到“USB-C 通用接口”,连接一切资源与能力!原创 2025-08-06 10:42:27 · 740 阅读 · 0 评论 -
编码器-解码器架构
本文系统介绍了Seq2Seq模型的核心概念与应用。从编码器-解码器的基础架构出发,分析了RNN、CNN、Transformer等不同网络形态的适用场景,并强调二者可异构组合。重点解析了注意力机制在解决长序列信息丢失问题上的关键作用,提供了PyTorch实现模板。文章分类整理了机器翻译、文本摘要、语音识别等典型任务,并列举了主流开源框架。最后提出进阶研究方向(长上下文处理、检索增强、多模态对齐)和实用建议(先跑通基准模型再创新)。全文以技术速查表形式呈现核心知识点,适合开发者快速掌握Seq2Seq技术要点。原创 2025-08-04 13:29:06 · 851 阅读 · 0 评论 -
在 Elasticsearch 中使用 LTR 参与检索
本文介绍了在搜索系统中使用二阶段排序(LTR)的两种实施方案。第一阶段采用BM25等高召回方法,第二阶段通过LTR模型(XGBRanker/LambdaMART)进行精细排序,可提升10-30%点击率。文章详细讲解了两种实现方式:方案A将LTR作为rescorer,适用于8.12版本;方案B作为retriever(9.1+新特性),更适合与RRF/混合查询配合使用。实践建议包括合理设置window_size(100-200)、特征调优、性能优化和灰度发布策略。两种方案核心参数相同,都能实现个性化、可学习的多原创 2025-08-03 12:42:45 · 464 阅读 · 0 评论 -
用 Eland 在 Elasticsearch Serverless 部署 Learning-to-Rank 排序模型
本文介绍了基于Elasticsearch和XGBoost的LTR(Learning to Rank)流程。主要内容包括:1)离线阶段通过Eland工具准备Judgment List数据,抽取特征并训练XGBRanker模型;2)使用Eland导入模型到Elasticsearch;3)在线检索采用两阶段策略,先召回200条文档再进行LTR重排;4)模型管理与灰度发布方案;5)常见问题及优化建议。该流程实现了从数据准备、特征工程、模型训练到线上部署的全链路,通过结合传统检索与机器学习提升搜索效果。原创 2025-08-03 12:40:16 · 534 阅读 · 0 评论 -
在 Elasticsearch 中落地 Learning to Rank(LTR)
本文介绍了在Elasticsearch中实现Learning-to-Rank(LTR)重排序的方案。LTR通过机器学习模型融合多维度特征(文档属性、查询属性、相关性等),对Top-K结果进行二阶段重排,能显著提升电商搜索、内容推荐等场景的相关性。文章详细阐述了从标注集构建、特征工程到XGBoost/LGBM模型训练的完整流程,并展示了如何在Elasticsearch 9.x中部署reranker服务,通过retriever+LTR二阶段查询实现实时重排。最后针对常见问题提供了解决方案,帮助开发者快速构建更精原创 2025-08-02 19:28:05 · 821 阅读 · 0 评论 -
在自然语言时代轻松连接 Elasticsearch MCP Server 技术详解与上手实践
Elastic官方推出的实验性工具MCP Server将Elasticsearch集群转化为自然语言交互的"工具箱",支持通过聊天窗口直接执行索引查看、DSL/ES|QL查询等操作,无需编写代码。提供Docker镜像,支持stdio和HTTP协议,兼容Claude等MCP客户端。需注意0.4.x版本为实验性,生产环境需评估风险,建议配合HTTPS、最小权限API Key等安全措施。该工具为搜索与大模型协同提供了新范式,未来或成为Elastic的AI时代核心交互方式。原创 2025-07-29 09:00:00 · 995 阅读 · 0 评论 -
RNN、GRU 与 LSTM 计算成本深入对比
循环神经网络(RNN)、门控循环单元(GRU)和长短期记忆网络(LSTM)是处理序列数据的三大经典模型。它们在自然语言处理、时间序列预测、语音识别等领域都有广泛应用。除了准确率,模型的计算成本(包括推理和训练开销)也是工业落地的关键指标。本文将从参数量、推理 FLOPs、训练 FLOPs 以及内存带宽四个维度,系统地比较三者在**给定隐藏层维度** $H$(输入维度假设为 $D$)时的计算成本,帮助读者在精度与效率之间做出平衡选择。原创 2025-07-15 13:48:13 · 1035 阅读 · 0 评论 -
Redis On-CPU Profiling定位瓶颈到可视化火焰图
Redis CPU性能优化全流程指南:从瓶颈确认到热点分析 本文详细介绍了Redis CPU性能优化的完整流程。首先通过USE方法确认CPU确实是瓶颈,然后重新编译Redis以保留调试信息。接着使用perf和eBPF工具进行热点采样,生成火焰图可视化分析。文章还提供了硬件事件采样方法、一键执行脚本和生产环境落地建议,包括采样频率选择、分段对比和自动归档等。最后总结了性能优化的闭环流程:定位→可视化→改进→回归,帮助开发者系统性地解决Redis CPU性能问题。原创 2025-07-03 22:08:40 · 773 阅读 · 0 评论 -
Redis 地理空间索引实践
本文详细讲解如何在 Redis 中配置与使用两种地理空间索引类型——**GEO**(经纬度点)与 **GEOSHAPE**(WKT 多边形/点),涵盖索引创建、文档写入、半径检索及空间关系查询等常见场景,并给出最佳实践与注意事项,助你轻松实现“附近搜索”“区域筛查”“形状相交”等功能。原创 2025-07-02 14:32:50 · 518 阅读 · 0 评论 -
RediSearch 字段类型与配置选项
Redis Open Source(含 RediSearch)通过灵活的 **Schema** 定义,让你可以对不同类型的数据(数值、地理坐标、标签、全文、向量等)进行高效索引与检索。本文将系统梳理所有可用的字段类型及它们的常见选项与用法示例,助你快速上手并优化搜索性能。原创 2025-07-02 14:27:55 · 1540 阅读 · 0 评论 -
精准定义 RediSearch 索引 Schema
Redis Open Source(含 RediSearch 模块)通过 **FT.CREATE** 命令提供了灵活的索引 Schema 定义能力:你可以指定要索引的字段、字段类型、权重、排序能力、分隔符,甚至只对符合条件的文档建索引。本篇博客将带你从入门到进阶,全面掌握在 Hash 与 JSON 文档上如何定义高效且可控的索引 Schema。原创 2025-07-02 14:23:57 · 990 阅读 · 0 评论 -
RedisVL -SearchIndex & AsyncSearchIndex全量 API 说明
RedisVL 提供了 SearchIndex 和 AsyncSearchIndex 两个类来同步/异步管理 Redis 搜索索引。核心功能包括索引创建、数据加载、文档删除、查询搜索等,支持通过 YAML/字典定义 Schema。SearchIndex 提供全生命周期管理,包括批量写入、分页查询、批量操作等;异步版本方法相同但返回 awaitable 对象。典型用法是先定义 Schema,创建索引后加载数据,最后进行查询或管理操作。原创 2025-06-29 15:56:16 · 554 阅读 · 0 评论 -
RedisVL Schema 官方手册详读
RedisVL Schema用于管理混合索引(倒排+向量),包含三大组件:version、index配置和fields字段集合。IndexSchema类支持YAML/Dict两种创建方式,提供动态增删字段、序列化等功能。关键方法包括add_field、remove_field和to_dict/to_yaml等。示例展示了YAML和Python Dict的Schema定义方式,以及动态增删字段的操作。字段类型包括text、tag、numeric、geo和vector,每种类型有相应的必填和可选属性。Schem原创 2025-06-29 15:51:52 · 372 阅读 · 0 评论 -
RedisVL Schema 深度解析与实战指南
在构建高性能的搜索与向量检索系统时,**Schema**(模式)定义了索引的结构和字段行为,是整个系统的“契约”。RedisVL 将 Schema 抽象为一个可编程的对象,通过统一而灵活的配置,帮助开发者快速搭建、演进和维护索引。本文将带你全面了解 RedisVL 的 Schema 模型、核心类 `IndexSchema` 的使用,以及在实际场景中的最佳实践。原创 2025-06-27 00:26:36 · 676 阅读 · 0 评论 -
RedisVL 0.5.1 全新特性深度剖析与实战指南
随着向量检索、语义搜索和混合查询场景的爆发式增长,RedisVL 0.5.1 版本在原有功能之上进行了多项关键升级。本文将带你从背景动因、核心设计,到新特性的原理、代码示例及最佳实践,全面解读 0.5.1 版本能为你的系统带来哪些改变,以及如何将其快速落地到生产环境。原创 2025-06-26 00:33:06 · 956 阅读 · 0 评论 -
RedisVL 阈值优化
在使用 RedisVL 的 **SemanticCache** 或 **SemanticRouter** 时,合理设置和优化语义匹配的距离阈值(`distance_threshold`)是保证高命中率与低误匹配率的关键。本文将介绍两种场景下的阈值优化流程:1. **缓存场景**:使用 `CacheThresholdOptimizer` 为语义缓存调优阈值2. **路由场景**:使用 `RouterThresholdOptimizer` 为语义路由调优阈值通过示例演示如何定义测试数据、运行优化器,原创 2025-06-25 01:08:31 · 1226 阅读 · 0 评论 -
Redis 语义路由深度解析与实战指南
在多业务场景中,经常需要根据用户自然语言查询自动分发到不同的处理模块(如技术、体育、娱乐等)。传统的关键词匹配方法往往难以覆盖多样化表达。RedisVL 提供的 **SemanticRouter** 利用 Redis 内置全文与向量检索能力,在 Redis 中构建“语义路由”服务。本文将从原理、路由定义、初始化、调用示例,到动态更新与管理引用,全方位剖析如何用 SemanticRouter 构建高效、可扩展的语义分类系统。原创 2025-06-25 06:45:00 · 681 阅读 · 0 评论 -
Redis 会话管理深度解析与实战指南
在对话式大型语言模型(LLM)中,由于模型本身无状态,每次调用都需要外部传入完整的上下文。随着对话轮次累积,直接附加全量历史将导致消息量、Token 消耗和延迟急剧上升。本文将介绍如何使用 RedisVL 提供的 **StandardSessionManager** 与 **SemanticSessionManager** 两种会话管理工具,在 Redis 中高效地存储、检索与维护对话会话记忆,既保证上下文完整性,又大幅降低成本和复杂度。原创 2025-06-25 01:01:58 · 625 阅读 · 0 评论 -
使用 Redis 管理 LLM 会话历史结构化与语义检索实战
LLM(大型语言模型)本身无状态,每次调用都无法记住之前的对话上下文。本文将演示如何借助 RedisVL 提供的 `MessageHistory` 与 `SemanticMessageHistory` 两个扩展类,完成对话历史的存储、检索与语义过滤。原创 2025-06-25 00:58:26 · 780 阅读 · 0 评论 -
RedisVL 中的 Hash 与 JSON 存储
Redis 提供了多种数据结构,适应不同的应用场景,而 RedisVL 进一步增强了 Redis 的向量搜索能力。本文将通过示例数据,展示如何在 RedisVL 中使用 Hash 和 JSON 存储,探讨两者的特点、适用场景以及如何结合向量搜索执行查询。原创 2025-06-24 00:23:52 · 724 阅读 · 0 评论 -
ngx_stream_access_module基于 IP 的流式访问控制实践指南
Nginx的ngx_stream_access_module模块自1.9.2版本起提供了TCP/UDP层的访问控制能力。该模块通过allow/deny指令实现客户端源地址黑白名单控制,适用于MySQL、Redis等非HTTP协议的保护。其工作在preread阶段,采用前缀树存储规则,支持IPv6和UNIX-Domain Socket。配置时需注意规则顺序,匹配后立即终止判断。与HTTP模块不同,它直接关闭TCP连接而非返回403。建议将高频规则前置,配合日志分析调试。该模块适合作为应用层防火墙,但应与内核级原创 2025-06-06 12:47:23 · 939 阅读 · 0 评论 -
嵌入式模型(Embedding Model)
嵌入式模型:从离散数据到连续向量 嵌入式模型将离散或高维信息(如文本、图像)映射到低维稠密向量空间,保持语义相似性。核心优势在于: 数据稀疏到稠密的转换,提高计算效率 捕捉语义和上下文依赖 方便下游任务处理 常见嵌入类型包括: 词级嵌入(Word2Vec、GloVe、FastText) 上下文动态嵌入(ELMo、BERT) 句子嵌入(SBERT、USE) 图像嵌入(CNN+全连接、CLIP) 相似性度量主要采用欧氏距离、余弦相似度等方法。通过将数据转化为向量,可广泛应用于语义检索、推荐系统等场景,实现高效的原创 2025-06-06 06:00:00 · 928 阅读 · 0 评论 -
Pegasus模型详解
Pegasus模型由 Jingqing Zhang、Yao Zhao、Mohammad Saleh 和 Peter J. Liu 在 2019 年 12 月 18 日于论文《PEGASUS: Pre‑training with Extracted Gap‑sentences for Abstractive Summarization》中提出。预训练任务紧贴摘要场景:从输入文档中删除/掩盖关键句子,并要求模型根据剩余句子一次性生成被删除的句子,形式类似抽取式摘要。下游效果。原创 2025-05-15 06:30:00 · 1320 阅读 · 0 评论 -
Qwen3‑235B‑A22B 深度解析与上手指南
Qwen3‑235B‑A22B 是阿里巴巴通义千问系列最新发布的 Mixture‑of‑Experts(MoE)模型,在 2350 亿总参数中仅激活 220 亿参数即可推理。它首创 *思考 / 非思考* 双模式框架,使模型能够在高效日常对话与复杂逻辑推理之间无缝切换。本文将从模型亮点、架构规格、快速上手、部署方式、长上下文处理、Agent 工具调用与最佳实践等角度,系统性解析 Qwen3‑235B‑A22B 的技术细节与落地方案,并给出完整代码示例,帮助开发者快速上手并将其集成到实际应用中。原创 2025-05-14 07:00:00 · 2310 阅读 · 0 评论 -
使用 NLLB-200 打造多语言控制台翻译工具
在全球化时代,语言不再是沟通的障碍。得益于 Meta AI 的 **NLLB-200**(No Language Left Behind)模型,我们可以轻松实现 200 种语言的翻译。本文将带你一步步构建一个**基于控制台的多语言翻译工具**,它能自动检测输入语言并将文本翻译成简体中文。无论你是 NLP 爱好者还是想开发多语言应用,这篇教程都将为你提供实用指导。原创 2025-05-13 06:30:00 · 1059 阅读 · 0 评论