蓑雨春归-CSDN博客

原创 AI领域的三箭齐发之夜 - genie3，gpt-oss, Opus 4.1

我们处在一个新的拐点上，既要欣喜于技术的飞跃，也应清醒地看到随着模型能力的快速跃进，安全、伦理与监管的重要性已经迫在眉睫。

2025-08-06 23:57:47 1276 1

原创自主智能Agent如何重塑工作流自动化：技术、经济与未来展望

在这场变革中，最大的风险不是技术不成熟，而是组织惰性。当智能体可以像人类员工一样参与价值创造时，企业的竞争维度将从"人才密度"转向"智能体密度"。那些在2025年就开始系统布局的企业，已经在这场新竞赛中获得了不可逆的先发优势。

2025-07-26 23:52:36 799

原创 Agent时代的AI搜索工具：技术革新与商业模式变革

AI搜索革命：从答案引擎到任务执行基础设施（2025年趋势报告） 2025年，AI搜索正经历范式转移：Google数据显示，AI Overviews月活达20亿，推动相关查询增长超10%。核心变革体现在：技术架构进化：混合搜索精度提升至89%，Self-RAG使幻觉率降低50%，多Agent框架缩短任务时间62% 商业模式颠覆：传统广告模式崩溃（点击率下降57%）

2025-07-26 11:51:42 949

原创 ChatGPT Agent：统一端到端Agentic模型的技术革新与行业影响

在ChatGPT Agent的技术实践中，我们看到了一个清晰的信号：AI代理技术正在经历从"组装式系统"向"有机智能体"的范式跃迁。这种转变不仅体现在技术架构上，更深刻地反映在评估者对系统的认知方式中——七位生物安全专家给出的7.7/10统一评分背后，是对"模型即系统"这一新范式的本能认可。

2025-07-18 15:16:18 995 1

本文探讨了AI Agent与Workflow两种任务处理范式的核心差异。智能体（Agent）具有自主决策能力，能够动态调整策略处理开放式问题，如客户服务场景中的创造性解决方案；而工作流（Workflow）依赖预定义规则，在确定性场景中效率极高但缺乏灵活性。文章分析了动态响应与预定义流程的效能对比，指出智能体在复杂任务中的适应性和工作流在结构化任务中的稳定性。此外，还讨论了多智能体系统（Multi-Agent）的设计原则，强调最小规则干预与最大化LLM能力利用的平衡，以及如何通过简单规则产生复杂行为。最后展望

2025-07-16 15:03:09 744

原创 Agent浏览器自动化工具技术原理探析- Palywright VS OS-Atlas

在经历了对浏览器自动化技术两种范式的深度剖析后，我们清晰地看到：以Playwright为代表的DOM解析路径与以OS-Atlas为代表的视觉认知路径，正在智能体技术发展的催化下走向前所未有的融合。这种融合不是简单的技术叠加，而是代表着自动化向自主化演进的历史性转折。混合智能体的技术革命当前的技术前沿已展现出明显的分层架构特征——底层仍依赖Playwright等工具对浏览器原生API的精准操控，中层则通过OS-Atlas的视觉理解能力处理动态界面元素，而顶层由大语言模型驱动的决策系统完成复杂任务拆解。

2025-07-13 23:37:05 1086

原创多代理系统(multi-agent)框架深度解析：架构、特性与未来

当前多代理系统生态呈现出百花齐放的繁荣景象，从强调工业级稳定性的AutoGen到追求轻量化的OpenAI Swarm，从面向非技术用户的CrewAI到支持高度定制化的LangGraph，每个框架都代表着不同的技术路线和应用哲学。这种多样性既是技术创新的必然结果，也反映了多代理系统在不同垂直领域的差异化需求。微软研究院的Autogen通过双代理架构实现了编程任务的高效协同，而CrewAI则通过简化配置流程降低了多代理系统的使用门槛，这种设计理念的分野恰恰说明了没有放之四海而皆准的"完美框架"。

2025-07-11 16:47:05 1337

原创 Energy-Based Transformers：实现通用系统2思维的新范式

【研究突破】伊利诺伊大学团队提出Energy-Based Transformers（EBTs），通过能量函数迭代优化模拟人类"系统2"慢思考机制。该架构突破传统Transformer局限，实现动态计算分配（复杂任务自动延长思考时间）和跨模态通用性（文本/图像任务均表现优异）。实验显示EBTs训练效率提升35%，推理性能跃升29%，且展现类似人类的学习发展轨迹。核心创新包括：统一能量框架支持连续-离散数据、验证驱动的闭环优化、自适应计算资源分配。尽管存在多模态梯度不平衡等挑战，EBTs在医

2025-07-09 19:44:31 926

原创深入解析通用Agent产品Manus的技术架构与核心能力

Manus的"Less Structure, More Intelligence"设计哲学正在重新定义智能体AI的行业标准。通过将规划代理、执行代理与验证代理的三元架构与多模型协同策略相结合，系统在GAIA基准测试中取得了跨难度级别的SOTA成绩，这一成绩不仅验证了其技术路线的可行性，更证明了现有顶级模型经过精巧编排后能够产生突破性效能。其核心优势体现在三个维度：架构灵活性使系统能适应从简单指令到跨领域复杂任务的执行；

2025-07-07 09:34:01 1081

原创 AI for Science：智能科技如何重塑科学研究

AI与科学研究的深度融合正在重塑科研范式。从效率革命（AlphaFold2数小时预测蛋白质结构）、规律发现（AI挖掘新型催化剂）到学科融合（CNN用于基因分析），AI展现出多维赋能。人机协作模式（如CRISPR研究）创造协同效应，而自主科研雏形已现（AI生成研究问题）。尽管面临模型可靠性、数据质量和伦理等挑战，量子计算融合、开放科学云等路径正推动发展。AI作为"认知显微镜"扩展人类探索边界，但科学家的创造力仍是核心。这场变革指向科研方法的本质演进，未来将呈现微观操控、宏观测算和自主探索三

2025-06-15 16:08:12 1022

原创探索Agent的发展潜力：大模型与具身智能的融合

Agent技术的未来，正站在大模型与具身智能两大技术浪潮的交汇点上，展现出前所未有的可能性。随着大模型在理解、推理和生成能力上的突破，Agent已从简单的任务执行者进化为具备复杂决策能力的“数字大脑”。例如，基于多模态大模型的Agent能够同时处理文本、图像甚至环境信号，在医疗诊断、工业质检等领域实现人类专家级的分析能力；而结合具身智能的实体化Agent（如机器人、自动驾驶系统）则进一步打破了虚拟与物理世界的界限，通过实时感知和动态交互，完成从“思考”到“行动”的闭环。

2025-06-13 22:28:53 1159

原创 AI Agent的“搜索大脑“进化史：从Google API到智能搜索生态的技术变革

AI agent快速发展的当下，搜索工具革命正在发生

2025-05-31 22:42:51 1624 1

原创从codex、copilot agent到编程自动化的AI软件开发范式转变

编程自动化的AI软件开发范式转变

2025-05-23 00:33:49 1308

原创 Agent是不是各种prompt的堆叠？

可以明确说。llm是大模型的核心，推理决策都是靠大模型,虽然agent用到很多prompt来处理规划的子任务,但agent的作用不单单是prompt，不是各种prompt的堆叠。Agent与llm的一个主要能力区别在于，而llm可以给出对于执行一个动作的描述(text-only)，但不会直接去执行动作(o3之类的模型除外，o3通过强化学习训练了也具备了交错执行think-action迭代的能力)。

2025-05-14 13:05:51 477

原创 2025年Agent发展趋势与市场机会：AI时代的下一波浪潮

随着Agent智能化程度的提高，一系列伦理问题开始凸显。最突出的争议集中在责任归属问题上：当自主Agent做出错误决策导致损失时，责任应由开发者、运营方还是算法本身承担？AI合规涉及确保AI系统遵守所有相关法律、法规和道德标准，确保AI工具不会以非法、歧视性、欺骗性或有害的方式使用。责任归属问题已成为AI伦理讨论的焦点，早在2017年欧洲议会就曾提出'电子人格'的概念，但2024年欧盟AI法案采取了基于风险的监管方法，尚未在法律层面确立AI的'数字人格'，全球对此问题仍未形成共识。

2025-05-08 22:16:42 1764

原创 AI时代我们应该具备的3C能力

在AI快速变化的当下，Curiosity是我们持续追逐新技术、新变化的催化剂，Creativity是我们扩展能力边界，开创新事业的驱动力，而compassion是我们思考如何与未来相处的平衡器。这三种能力中，compassion能力或许是三个能力中我们最欠缺的，但这个能力一定程度上可能取决我们生活的社会和环境是怎样塑造的，而与自身无关。

2025-05-02 20:55:28 1334

原创图像生成mcp server的自定义实现

以上就是对开发一个图像生成 mcp server的记录和思考，欢迎大家交流，项目目前支持在cursor和windsurf中配置使用，如果有需要请到GitHub进行clone使用。

2025-05-01 15:55:32 1246

原创 o3原生Agentic能力会重塑Agent技术范式吗？

o3的原生agentic能力代表了Agent技术发展的一个重要里程碑。通过将规划、推理和工具使用能力内化到模型本身，o3开创了一种新的Agent开发范式，从外部编排转向内生决策，使得agent的核心能力进一步向模型"靠拢",具备更强的agent端到端处理能力。然而目前的o3仍然不是agent的终极解决方案，存在'工具虚假调度'（这可能是强化学习的奖励劫持导致的），幻觉率升高，成本高昂等问题，而且模型的可靠性和能力范围是否可以扩展到multi-agent，均需要在现实场景中进行更多验证。

2025-04-27 16:37:43 1108

翻译通向AGI的规划和展望 - Sam Altman ,the CEO of OpenAI

通向AGI的规划和展望 - Sam Altman ,the CEO of OpenAI

2023-02-25 21:03:23 678

原创 Chatgpt的介绍-内容由chatgpt生成

Chatgpt 自己介绍自己

2023-02-05 15:59:50 7650

原创 MobilenetV2 在ARM CPU上的MNN部署

MobilenetV2 在ARM CPU上的MNN部署

2022-12-30 10:40:48 1349

原创 Stable Diffusion 图像生成测试

多模态图片生成

2022-09-16 13:16:14 2141

原创 4d 成像雷达-3d目标检测公开模型数据集

4d radar object detection

2022-08-25 14:38:00 786

原创设计模型之Visitor模式-图书馆管理系统应用C++实现

今天看到<<软件设计师>>面向对象第七章讲到几种设计模式，其中一种为Visitor模式。这种设计模式通过访问者对象的建立，在访问过程中将访问者作为参数传到被访问对象的函数中，实现了有选择性的访问不同类的资源。其中有一个Visitor模式设计的应用，参考书中的代码，在本地测试跑了一下。//// library_visitor.cpp// data_structure/*某图书管理系统中管理者两种类型的文献:图书和论文。现在要求统计所有馆藏文献的总页码(假设图书馆中有

2021-04-04 14:36:41 747 4

原创 Python实现自定义队列

项目中需要读取一个pickle数据文件，pickle文件存储的是按行保存的文本，需要调用编码模型分别对每一条文本进行编码，然后使用numpy数组保存编码后的向量。由于模型每次只能输入一定batch size大小的数据，所以需要对数据继续分割后再输入模型编码embedding，可以直接加载整个文件，通过batch size来分割整个文件数组。但是如果文件很大，这样的加载方式可能会导致内存溢出。因此考虑对文件进行单行读取，使用一个队列来接受读取的数据，当读取的行数等于batch size时，就将这个批次的数据送

2021-03-31 14:22:07 960 2

zjjtilm的博客