- 博客(578)
- 收藏
- 关注
原创 开源新旗舰 GLM-4.5:不想刷榜,只想干活儿
GLM-4.5 的发布,不只是又一个强大的开源模型问世,更代表了一种务实、高效、以应用为核心的理念。它不炫耀难懂的技术原理,也不执着于榜单虚名,唯一的目标就是:在你需要它的时候,能让你由衷感叹一句:"真不错,把活儿干完了!目前,Z.ai 已经免费开放「满血版 GLM-4.5」,快去体验这个 "真正能干活" 的强大 AI 帮手吧!
2025-07-30 14:21:49
395
原创 AI Agent 运行时相比传统应用有什么不同:百家企业 AI 实践观察
在本系列的内容中,我们已经和大家一起理清了一些基本概念, 比如 AI 应用的定义,AI 应用的核心是什么,以及 AI Agent 的定义和推理模式等。从本篇文章开始,我们将具体讲讲 AI 应用实践过程中每一个环节的核心挑战,以及我们对应的解法和思路。如果您对这些内容感兴趣,推荐您关注阿里云云原生公众号,后台回复 "企业 AI 实践" 获得我们整理的完整的企业级 AI 应用构建的最佳实践 PPT,配合系列文章一起食用,效果更佳。今天我们聊聊 AI Agent 运行时。
2025-07-30 14:20:58
409
原创 CodeBuddy IDE小试-单元测试篇
笔者获取CodeBuddy IDE的申请码,进行相关单元测试UnitTesting实践,相比之前插件时支持文件夹folder上下文。模型也增加国际主流模型,从智能化角度有进度,准备从设计到开发部署一条AI流水线,有点儿像DevOPS+AI。建议大家可以进一步测试。
2025-07-30 14:19:52
373
原创 IT文档中总出现的 hooks 是什么 钩子 回调
引用某乎上著名的示意图:就像一些外来的钩子,在源代码之间钩取一些信息,当捕捉到感兴趣的事时,就拦截下来,让自己的代码执行一下,处理一下这个信息,然后再放出去继续之前的进程。就可在不改变源码情况下,做些别的事,如监控、分析。在计算机编程中,术语“钩子”涵盖了一系列技术,这些技术通过截获在软件组件之间传递的函数调用或消息或事件来更改或增强操作系统,应用程序或其他软件组件的行为。 处理此类拦截的函数调用,事件或消息的代码称为“挂钩”。回调这个东西在各个语言/框架中的具体形式也不同,如 Java 中 Listene
2025-07-30 14:19:06
201
原创 GMI Cloud 于 WAIC 2025 展现全栈 AI 基建实力,破解出海成本与效率难题
基于这些洞察与实践,双方从技术赋能商业的视角,剖析了 AI 应用出海的市场现状、核心壁垒及商业变现路径,为行业提供了有技术支撑的市场分析,这场“技术实践+行业研究”的对话具备双重权威性,引发广泛关注。同时,GMI Cloud 技术 VP Yujing Qian 登上世博展览馆 H4 区域的小红书舞台,带来《混迹硅谷 10 年,AI 颠覆了我的 Coding 习惯》的即兴分享,结合自身在硅谷的十年技术研发经历,分享了 AI 技术如何重塑程序员的编码思维与工作方式,引发众多开发者共鸣。
2025-07-30 14:17:24
249
原创 “AI搭子”是否会替代传统组织形式,AI Agent原生是否会成为企业新的存在的方式?
在AI技术持续突破的浪潮中,AI Agent作为一种能够感知环境、理解任务、做出决策并执行操作的自主软件系统,成为当下产业变革的核心驱动因素。以大模型和Agent为核心的产业生态正以前所未有的速度重构,产业变革再次被推向了浪潮之巅。十年前互联网变革时《浪潮之巅》《必然》《个体崛起》的启示还记忆犹新,今天,网红搭子、直播带货、短视频,就已经切切实实地在生活中常态化了。可以看到,这些新兴产业形态背后,是一个个为了同一目标,动态组队的个体。
2025-07-30 14:16:40
371
原创 “AI搭子”是否会替代传统组织形式,AI Agent原生是否会成为企业新的存在的方式?
在AI技术持续突破的浪潮中,AI Agent作为一种能够感知环境、理解任务、做出决策并执行操作的自主软件系统,成为当下产业变革的核心驱动因素。以大模型和Agent为核心的产业生态正以前所未有的速度重构,产业变革再次被推向了浪潮之巅。十年前互联网变革时《浪潮之巅》《必然》《个体崛起》的启示还记忆犹新,今天,网红搭子、直播带货、短视频,就已经切切实实地在生活中常态化了。可以看到,这些新兴产业形态背后,是一个个为了同一目标,动态组队的个体。
2025-07-30 14:16:09
346
原创 领导者的认知跃迁:MLPO如何通过多智能体训练实现能力突破
MLPO的突破性价值不仅在于技术层面,它还揭示了高效协作系统的普适原则。该框架通过仅训练一个领导者模型,便能系统性提升整个多智能体系统的性能,实现了训练成本与推理性能的最佳平衡。实验数据清晰表明,MLPO在MMLU、BBH和MATH三大基准上全面超越现有方法,甚至在零样本模式下也优于传统训练方案,这验证了"多智能体引导训练"的有效性。卓越的领导力不在于领导者自身掌握所有知识,而在于其评估、整合与引导团队的能力。
2025-07-30 14:15:26
542
原创 自回归模型杀回图像生成!实现像素级精准控制,比Diffusion更高效可控
近日,来自伊利诺伊大学香槟分校(UIUC)、威斯康星大学麦迪逊分校、清华大学、北京大学、Adobe以及微软的研究者们,将目光投向了另一条技术路线——当下的AI图像生成领域,Diffusion模型无疑是绝对的王者,但在精准控制上却常常“心有余而力不足”。在精确视觉控制、平衡多模态输入以及高昂的训练成本方面仍面临挑战。有没有一种更高效、控制更精准的范式?近日,来自伊利诺伊大学香槟分校(UIUC)、威斯康星大学麦迪逊分校、清华大学、北京大学、Adobe以及微软的研究者们,将目光投向了另一条技术路线——
2025-07-30 14:13:26
728
原创 TTD-DR:基于测试时(Test-Time)扩散的深度研究Agent突破
谷歌在扩散技术领域持续发力。这次,他们将扩散技术应用于深度研究agent,专门用于优化研究报告生成过程。该方法在长篇研究任务中对比OpenAI Deep Research取得了69.1%的胜率。谷歌在扩散技术领域持续发力。这次,他们将扩散技术应用于深度研究agent,专门用于优化研究报告生成过程。该方法在长篇研究任务中对比OpenAI Deep Research取得了69.1%的胜率。图片论文提出了测试时扩散深度研究员(TTD-DR),重新思考了深度研究agent生成长篇报告的方式。
2025-07-30 14:05:10
296
原创 OKR框架在人工智能和数字化转型中的应用
定义:目标与关键成果(OKR)是一个目标设定框架,旨在帮助组织定义和跟踪目标(即要实现的目标)及其相关关键成果(即衡量进度的方法)。OKR起源于英特尔,后因谷歌和约翰·杜尔的著作《衡量重要的事情》而广为推广。OKR通常设定在不同的层级,包括公司、团队、个人,并且通常每季度进行一次。目标:一个有定性、鼓舞人心的目标。它应该简短、引人入胜且可操作。例如,一个目标可以是“改善我们的移动应用用户体验,让客户满意”。关键成果:2-5个量化、可衡量的成果,如果实现,则表明目标已取得进展。
2025-07-30 14:04:38
775
原创 数据才是AI的真正护城河啊!
为什么大厂的模型就是比创业公司强?不是因为他们的算法有多高明,而是因为他们有数据。Google有YouTube、搜索记录;Meta有Facebook、Instagram;微软有GitHub、LinkedIn。这些独家数据源,是多少钱都买不来的。创业公司想突围,只能另辟蹊径。要么深耕某个垂直领域,用专业数据建立壁垒;要么创新数据获取方式,比如众包、合成、交换。未来的AI竞争,不是比谁的模型大,而是比谁的数据好。就像石油时代,掌握油田的人掌握了能源;AI时代,掌握数据的人掌握了智能。
2025-07-30 14:03:50
582
原创 大模型中的嵌入向量
计算机无法直接对文本进行数学运算,需要先将文本(token)转为张量,然后才可以进行数学运算,这个将文本转为张量的过程,也就是词嵌入(Embedding)。当然,当计算机运算完成后,Embedding 又需要逆向转为具体的 token。前面文章和小伙伴们聊了 Tokenizer,经过 Tokenizer 之后,自然语言变为 Token,那么大模型就可以直接训练 Token 了嘛?还不行!
2025-07-30 14:01:41
234
原创 Coze开源版?别吹了!
Coze 开源版刚发布,目前还没有发 GA(稳定版),功能太少、问题太多,大家谨慎使用!相信在未来 Coze 开源版因为热点高会越来越好,但现阶段确实只能写写 Demo。Coze 开源了,科技圈一下炸开了锅,一时风光无两,我也第一时间部署并体验了开源版的 Coze,并且出了一个很详细的安装视频,以及简单的体验案例,有兴趣的同学可以去看:但今天要谈的不是安装的问题,而是在深度体验了 Coze 开源版之后,感受到开源版存在两个致命问题,想和大家聊聊。
2025-07-29 15:16:26
337
原创 拆箱开源版Coze:Agent核心三件套大公开,48小时揽下9K Star
扣子这是把Agent从开发、评测到运维的完整链路,全都打包开源了,堪称一步到位。搞Agent开发也有开源一条龙了!(Coze Studio)和才过了一个周末,两个项目就拿下了9K Star~再加上此前,扣子这是把Agent从开发、评测到运维的完整链路,全都打包开源了,堪称一步到位。有一说一,Agent在今年有多火大家都有目共睹。不论是各种爆款Agent的相继涌现,还是各大厂商陆续发布MCP协议支持,种种迹象都在说明一件事:Agent正从“炫技的玩具”,变成真正能落地的应用工具。
2025-07-29 15:15:25
1113
原创 微软研究:人类辨别 AI 生成图像成功率仅 62%
微软人工智能公益项目发布的一篇论文概述了一项实验,该实验有超过 1.25 万名全球参与者,进行了 28.7 万次图像评估,结果显示人类辨别 AI 生成图像与真实图像的整体成功率仅为 62%,这表明人类在识破这些虚假图像方面的能力仅略高于随机猜测,面临着较大的挑战。7 月 28 日消息,微软人工智能公益项目(Microsoft AI for Good)发布的一篇论文概述了一项实验,该实验有超过 1.25 万名全球参与者,进行了 28.7 万次图像评估,
2025-07-29 15:13:11
458
原创 只需一次指令微调,大模型变身全能专家天团,8B模型性能反超全微调基线 | ACL25 Oral
当前预训练语言大模型(LLM)虽具备通用能力,但适应专业领域需高昂的指令微调成本;稀疏混合专家(SMoE)架构作为可扩展的性能-效率平衡框架,虽能提升推理效率并灵活扩展模型容量,但其从头训练消耗巨大资源,因此复用密集大模型参数的升级改造(LLM Upcycling)成为更具成本效益的替代方案。只需一次指令微调,即可让普通大模型变身“图片当前预训练语言大模型(LLM)虽具备通用能力,但适应专业领域需高昂的指令微调成本;
2025-07-29 15:12:29
959
原创 平台工程师们请注意:构建AI支持型基础设施已经成为新的刚需
Gartner指出,到2026年,80%的大型软件工程组织都将建立起平台工程团队,充分可复用服务、组件及应用交付工具的内部提供方——这一比例显著高于2022年的45%。到2027年,平台工程更将显著影响基础设施与运营团队的技术选型,影响超过半数决策。译者 | 核子可乐审校 | 重楼如今,平台工程师负责解决的需求正在迅速演变,由最初DevOps自然演化的产物发展成一门职责不断扩展的独特学科。当下的平台工程师不仅需要管理日益复杂的云原生环境,还要为整个企业构建AI基础设施。
2025-07-29 15:08:48
694
原创 从DeepSeek-V3到Kimi K2:八种现代 LLM 架构大比较
自最初的 GPT 架构开发以来,已经过去了七年。乍一看,回顾 GPT-2(2019 年),展望 DeepSeek-V3 和 Llama 4(2024-2025 年),人们可能会惊讶于这些模型在结构上仍然如此相似。自最初的 GPT 架构开发以来,已经过去了七年。乍一看,回顾 GPT-2(2019 年),展望 DeepSeek-V3 和 Llama 4(2024-2025 年),人们可能会惊讶于这些模型在结构上仍然如此相似。
2025-07-29 15:08:04
612
原创 OpenAI 多智能体研究框架:构建高效协作的AI代理系统
每个智能体的定义都包含名称、模型选择、工具集和指令集等核心要素。以下是研究代理的配置示例:复制model="o3-deep-research-2025-06-26", # 专门的深度研究模型tools=[WebSearchTool(), # 用于公开互联网搜索HostedMCPTool( # 用于内部知识库检索1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.
2025-07-28 16:31:59
941
原创 Dify新版1.7发布,这两个重要更新你必须知道!
Dify 又发布新版了,这次也是直接从 V1.6.0 升级到 V1.7.0 了,那这次升级的主要内容是啥呢?接下来我们一起来看。这次升级除了修复了一些列 BUG 和部分功能优化之外,。:允许用户安全地连接第三方服务,而无需手动管理 API 密钥。避免了手动维护 API 秘钥的麻烦,同时可以有效的防止(静态)API 秘钥被劫持和泄露的风险。:Dify 插件可以配置自动升级到最新版本,这样就确保了插件和 Dify 版本的兼容性,保证 Dify 能够稳定运行。
2025-07-28 16:30:45
377
原创 Qwen发布Qwen3-Coder:开源4800亿参数级代码模型新标杆
Qwen3-Coder是阿里云Qwen团队基于Qwen3系列开发的代码专用模型。该模型完全开源,专为超长上下文场景的智能化编程设计,借助YaRN技术,其上下文窗口支持长达100万token,实际运行时启用了350亿个活跃参数。Qwen3-Coder延续了基础版Qwen3模型的优势,除了擅长代码生成外,在数学推理和通用语言理解等任务中也有突出表现。
2025-07-28 16:29:56
770
原创 协同 RAG-Reasoning:让大模型边想边查的“深度研究”范式
多样化任务类别的完整代表性知识和推理密集型基准测试。多样化任务类别的完整代表性知识和推理密集型基准测试TriviaQA 和 NQ:要求模型在噪声如潮的海量语料中精准检索,面对用户表述模糊的棘手查询,需抽丝剥茧锁定关键信息。例如,在处理历史事件查询时,模型需要从大量的历史文献和新闻报道中筛选出与事件相关的核心信息,并准确理解事件的时间、地点、人物等关键要素,以生成准确的回答。HotpotQA:要求模型于多篇维基百科文章中穿梭,追踪零散证据,串联起多跳逻辑链条,将离散事实编织成连贯答案。
2025-07-28 16:20:54
775
原创 与Claude协作开发Go项目:AI编程实战指南
不要等到第一次意外提交了10MB的coverage.out文件后才想起来设置.gitignore。在项目开始时就定义好这个文件,Claude可以生成一个基础版本,或者你可以使用标准的Go模板并加入自己的定制。这样做可以避免diff中的噪音、仓库膨胀,以及意外将秘密信息提交到源码控制中。复制# 二进制文件*.exe*.exe~*.dll*.so*.dylib# 测试相关*.test*.out# 依赖目录vendor/# 构建输出dist/build/# IDE文件。
2025-07-28 16:20:17
641
原创 AI代理的记忆机制:向量数据库如何支撑大语言模型记忆
矢量存储是一种特殊的数据库类型,与传统数据库存储文本或数字不同,它专门用于保存矢量数据。矢量是一组数字列表,能够表达文本的语义信息。它通过一种叫做嵌入的过程生成这些矢量。当模型接收一个句子时,会将其转化为高维空间中的一个点。在这个空间里,含义相近的文本会被聚集在一起。例如,在向量空间中,"我喜欢寿司"可能会与"寿司是我的最爱食物"接近。这些嵌入能够帮助AI代理找到相关的想法,即使词语有所不同。
2025-07-28 16:19:47
937
原创 80万人排队求码后,Lovart功能升级放开用!果然是顶流设计Agent,第一天鲨疯了
设计顶流Agent——Lovart,刚刚宣布开放邀请码,面向所有人,然后就热搜热议了。顶流就是顶流,外媒争相报道、网友扎堆围观……设计顶流Agent——,刚刚宣布开放邀请码,面向所有人,然后就热搜热议了。曾上线5天就引10万人排队体验的Lovart Beta测试版,。这一次,平台不仅支持用户直接注册使用,更推出了全新升级的玩法。快看,就连上线预告视频都是Lovart自己做的(doge):最重磅的是,Lovart正式版全新推出了。
2025-07-28 16:19:01
676
原创 超大模型推理加速2.18倍!SGLang联合美团技术团队开源投机采样训练框架
SGLang,当前趋势下最受青睐的推理框架之一,为DeepSeek提供了专属优化,也深受英伟达、AMD、xAI等厂商喜爱。专门适用超大模型、带来2.18倍推理加速,最新投机采样训练框架开源!SGLang团队联合美团搜推平台、Cloudsway.AI开源SpecForge。SGLang,当前趋势下最受青睐的推理框架之一,为DeepSeek提供了专属优化,也深受英伟达、AMD、xAI等厂商喜爱。这一次开源,主要是针对当下超大模型趋势。
2025-07-28 16:18:13
323
原创 手机AGI助手还有多远?移动智能体复合长程任务测试基准与调度系统发布
当前移动端智能体的 Memory 机制主要包含无记忆(如 OS-Atlas-Pro,只根据动作历史和当前屏幕预测下一步动作,没有储存历史信息的机制)、部分记忆(如 UI-TARS,每次输入前 N 张屏幕观察,一定程度上可以利用前 N 张屏幕中的有利信息,但是在多源、跨越较大的信息传递和整合中收到较大限制)、主动记忆(如 Mobile-Agent-V2 和 Mobile-Agent-E 每一步都会主动判断当前是否有信息要存储到记忆模块)。研究人员针对主流的移动端 GUI 智能体展开系统的研究。
2025-07-28 16:17:30
522
原创 ACL 2025|驱动LLM强大的过程级奖励模型(PRMs)正遭遇「信任危机」?
PRMBench 的发布,不仅是一个新的、更高标准的评估基准,更是一声警钟,提醒我们必须重新审视现有 PRMs 的能力边界,并加速其在复杂推理场景下细粒度错误检测能力的发展。推动 PRM 评估研究的范式转变:PRMBench 提供了一个前所未有的全面、精细化评估工具,能够更有效地识别 PRMs 的潜在缺陷和「盲区」,从而促进相关算法和模型的根本性改进。
2025-07-28 16:16:10
722
原创 ICML 2025 | CoTo:让LoRA训练「渐入佳境」,模型融合、剪枝样样精通
CoTo 通过一个简单而巧妙的渐进式训练策略,有效解决了 LoRA 训练中的层级不平衡和 「懒惰」 优化问题。它不仅提升了模型的单任务泛化能力,更重要的是,它极大地增强了 LoRA 适配器的可组合性与鲁棒性,让模型融合与剪枝等下游操作变得更加简单高效。CoTo 无需修改模型架构,可以作为即插即用的模块与各类 LoRA 方法无缝集成。文章中还提供了渐进优化和合作博弈两个角度深入分析了 CoTo 带来的优势。我们相信,这项工作将为参数高效微调领域的研究与应用带来新的启发。
2025-07-28 16:15:21
538
原创 GAIA基准测试介绍
是一个针对通用 AI 助手的基准测试,由 466 个经人类设计和注释的问题组成,这些问题有时会附带文件(如图像或电子表格),涵盖日常个人任务、科学和常识等多种助手使用场景。数据集提示词我们从论文中学习,合并一个提示词,用于简单测试Kimi K2模型正确扣子空间正确智谱沉思模式没有答案秘塔搜meta.so总结以上是我们手动测试,后续其他智能体平台也可以使用进行测试与验证,与同行业测试数据对比。
2025-07-28 16:13:14
621
原创 12 MCP Servers的介绍
是一项开放标准,简化了AI模型(特别是大语言模型LLMs)与外部数据源、工具和服务之间的交互方式。MCP服务器充当这些AI模型与外部工具之间的桥梁。允许大语言模型直接访问本地文件系统,进行读取、写入和创建目录等操作。将Claude连接到GitHub仓库,支持文件更新和代码搜索功能。用于Slack API的MCP服务器,使Claude能够与Slack工作区进行交互。用于Google Maps API的MCP服务器。与Docker集成,用于管理容器、镜像、卷和网络。
2025-07-27 13:58:19
593
原创 基于CodeBuddy自定义Agent知识库重构实践
在软件开发过程中,可以利用智能体编程来实现代码生成、代码优化等功能。例如,设计一个智能体来分析软件需求文档,根据需求文档自动生成部分代码框架或者代码片段。这些智能体可以根据已有的编程规则和模式来生成代码,并且能够根据反馈不断优化生成的代码质量。这样可以大大减少开发人员编写重复性代码的工作量,提高软件开发的效率。我们尝试CodeBuddy工具应对复杂项目工程处理能力,希望给大家一些参考。
2025-07-27 13:57:04
515
原创 Trae智能复杂项目重构实践
背景之前在前文《》 IDEA下CodeBuddy+Deepseek R1 V0528尝试,与TonyYiLingMa+Qwen3-thinking模型勉强下完成单个子模块重构任务,存在过多编译不通过的情况。今天我们尝试使用Trae智能体+Gemini 2.5 Flash大模型实施重构,目标模块actor有90个java文件。实践上下文准备4000个JAVA文件工程需要20分钟才能完成工作区索引我们依然写了比较全的提示词,由于工程较大近4000个+JAVA文件,缩小范围到子模块的重构任务。
2025-07-27 13:55:58
558
原创 Redis 数据倾斜?别慌!从成因到解决方案,一文帮你搞定
数据量倾斜数据访问倾斜数据中有bigkey,导致某个实例的数据量增加Slot手工分配不均,导致某个或某些实例上有大量数据使用了Hash Tag,导致数据集中到某些实例上。数据访问倾斜主要原因:有热点数据存在,导致大量访问请求集中到了热点数据所在的实例上。倾斜类型倾斜成因应对方法数据量倾斜存在bigkey业务层避免创建bigkey 把集合类型的bigkey拆分成多个小集合,分散保存同上Slot手工分配不均制定运维规范,避免把过多Slot分配到一个实例上同上。
2025-07-27 13:55:10
895
原创 MySQL 8.0 的隐藏索引:索引管理的利器,还是性能陷阱?
MySQL8.0开始支持隐藏索引,不可见索引。它允许快速启用/禁用MySQL Optimizer使用的索引。隐藏索引不会被优化器使用,但仍需维护。
2025-07-27 13:54:18
608
原创 掌握 Spring Cloud Gateway 的 13 种路由方式:轻松构建灵活微服务网关
Spring Cloud Gateway 支持多种路由模式,主要通过配置不同的或使用配置文件(如或)来定义。Spring Cloud Gateway 在 Spring WebFlux 的基础设施中匹配路由。它内置了许多路由谓词工厂,这些谓词根据 HTTP 请求的不同属性进行匹配。你可以通过逻辑and组合多个谓词来实现更复杂的匹配逻辑。
2025-07-27 13:53:38
692
原创 中国联通 ChatDBA 升级向量数据库,Milvus、Elasticsearch、OceanBase实测对比
综上所述,Milvus、Elasticsearch 和 OceanBase在功能、性能、产品生态的区别大致如下。
2025-07-27 13:52:42
590
原创 解密prompt系列56.Agent context Engineering - 单智能体代码剖析
然后就是基于多个query的并行搜索模块这里直接使用了Langgraph自带的Send多线程并发模式,然后直接让大模型基于检索上文进行总结。这里可参考不多,因为引用生成等逻辑在Gemini的API中,用开源模型的盆友需要重新适配。不过有意思的是现在如何给模型推理插入引用,原来多数都是在指令中加入要求,让模型一边推理一边生成引用序号,不过在新的模型能力下有了很多天马星空的方案。像Claude给出过先直接进行无引用推理,然后再让模型重新基于推理结果,在不修改原文的基础上,插入引用的markdown链接。
2025-07-27 13:51:52
556
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人