【2025年6月】AI生产力再探再报:更多更强的超级智能体,统计、调研、PPT、前端开发、控制电脑!还有干饭

前言
2025年6月的个人学习笔记。

一、工具尝鲜快报:好玩的,初探感觉不错,但还未十分深入的工具。
二、生产力军火库:好用的,开箱即用的神器,以及一些隐藏的技巧。
三、前沿动态速递:好看的,个人感兴趣的新工具、动态信息,或一些优质资料。

一、工具探索快报

1.Skywork超级智能体

在 2024 年初,笔者体验过天工推出的数据分析智能体,在其他国产 AI 都还只能对话,无法读取 EXCEL 分析,或读取了却没有代码沙箱执行 Python 导致产生一堆统计错误时,天工做到了令人眼前一亮。可惜昙花一现后就下架了,之后各大厂商内卷,再也没用过天工。如今,天工的超级智能体也诞生了!

笔者以制作培训 PPT 为题,与其他类似智能体以及具有 PPT 能力的 AI 进行了对比测试。

prompt:
以《产品经理应该知道的大模型》为题输出培训方案文档,并制作成PPT:
# 要求
- 章节包括:
1.入门篇:大模型基本能力、深度思考与联网、开源与闭源、参数规模与配置要求、数据安全;
2.技术篇:幻觉、提示词、RAG、微调、智能体、MCP。
# 文风参考
一个预训练大模型就像是一个刚毕业的大学生,有一定的学识,但投入到岗位上不一定能直接满足需要,提示词就是你作为导师手把手、一次次的教他该怎么做,RAG就是你给他一本操作手册让他边学边做,微调就是你对他进行专项职业培训。
那也可以类比出,为什么大模型有幻觉,那就是看在大学里他学了什么,他预训练的数据集是什么,多数是互联网数据,所以他可能过于依赖学校里的经验,来处理实际的工作,就出现了不适应症。

12 个 AI 生成 PPT 测试(主观评价):

排名AI名称能力描述
1KIMI+PPT比以前有退步,但同行衬托下还是顶呱呱
1.5Skywork超级智能体内容结构较好,模版略土
2墨刀AI需要会员才能下载,第二梯队
2智谱非会员每日免费下载1次
2iSlide有免费额度,够体验
3通义PPT太单调,第三梯队
3纳米AI超级搜索无PPT能力,生成图文报告
3扣子空间动作最快,效果中庸
4豆包无PPT能力,只能提供文字方案
4文心无PPT能力,只能提供文字方案
4元宝无PPT能力,只能提供文字方案
5WPS AI丢人

天工生成的 PPT:
在这里插入图片描述
锐评时间:天工的输出整体内容结构很好,确实适合学习,但 KIMI 的画风更美观(可选模版减少了,KIMI 也变穷了吗)。天工是穷怕了,产品不赖,可惜才刚上线都无免费体验次数,送的积分连一次任务都完不成,本来消耗量就不小,充值后积分还限制 90 天内有效,和其他厂商相比略显抠搜。执行时页面会卡住不更新,刷新后才知道它干到哪了。

2.Kimi-Researcher

月之暗面推出的深度研究智能体,据说超越了 Claude 4 Opus 与 Gemini 2.5 Pro(牛蛙牛蛙)。笔者以调研为题,进行了对比测试。

prompt:

  • Role: 社会信用体系建设专家
  • Background: 用户作为外行人,想要了解社会信用体系建设领域,尤其是国家政策大方向、深圳的落地情况以及结合信息化技术、大数据和AI的应用发展方向,以便撰写一份既专业又通俗易懂的调研报告。
  • Profile: 你是一位在社会信用体系建设领域深耕多年、具有深厚理论基础和丰富实践经验的专家,熟悉国家政策法规,对各地社会信用体系的建设情况有深入研究,尤其擅长分析信息化技术、大数据和AI在该领域的应用。
  • Skills: 你具备政策解读能力、数据分析能力、技术应用分析能力以及报告撰写能力,能够将复杂的政策和技术内容转化为通俗易懂的语言。
  • Goals:
  1. 梳理国家社会信用体系建设政策的大方向。
  2. 分析深圳社会信用体系建设的具体落地情况。
  3. 探讨信息化技术、大数据和AI在社会信用体系建设中的应用发展方向。
  4. 撰写一份既专业又通俗易懂的调研报告。
  • Constrains: 调研报告需基于公开资料和权威数据,确保内容的准确性和客观性,同时要兼顾专业性和通俗性。
  • OutputFormat: 调研报告应包含政策解读、案例分析、技术应用探讨和未来展望四个部分,使用图表和实例辅助说明。
  • Workflow:
  1. 收集国家社会信用体系建设相关政策文件,解读政策大方向。
  2. 调研深圳社会信用体系建设的政策文件、具体措施和实施效果。
  3. 分析信息化技术、大数据和AI在社会信用体系建设中的应用案例和发展趋势。
  4. 撰写调研报告,确保内容专业且通俗易懂。

8 个 AI生成调研报告+可视化网页测试(主观评价):

AI \ 对比维度文字篇幅排名文字质量排名可视化图表/网页质量排名交互体验
纳米AI超级搜索211★★★★★☆
KIMI深度研究111★★★★★
Skywork超级智能体423★★★
扣子空间732★★★★★
文心X1633★★★☆
AutoGLM沉思32★★★☆
Qwen3分析研究52★★★★
秘塔AI 长思考+研究834★★★★

超级智能体组输出结果对比图:
在这里插入图片描述
专家智能体组就是不够超级啦)输出结果对比图:
在这里插入图片描述

另外试了DS R1、豆包1.5、混元T1,只能说非超智体的推理模型,输出不足以参与到以上擂台,夸克超级框感觉和秘塔类似,必须要下载浏览器这点就劝退了。顺便一提,纳米超级搜索因为资源紧张,有时执行一半就崩了,每月免费5次,心疼跑了一半烧掉的tokens,要是设计中断保留进度的功能就好了,纳米的交互动态效果特别酷炫!

3.GLM-PC

上期吐槽字节开源好多玩具但是没有可以直接用的产品,比如 UI-TARS,今儿个试试功能类似的产品,收藏了很久还没打开过的——智谱推出的 AI 自动化工具,官方昵称:牛牛。

基本流程是录制电脑屏幕,并通过视觉大模型理解页面元素后,操作软件或文件。官方案例是打开浏览器进行搜索之类的,试之无味,但在办公电脑上还不敢让牛牛做太多,试了以下几项,感觉无视安全性不用担心安全性的话,未来很有潜力。

prompt-1:打开钉钉,看一下有什么未读信息
action-1 :在桌面找到钉钉图标,双击打开钉钉界面 → 在界面中找到消息栏,点击 → 在消息页面找到未读选项卡,点击


prompt-2:打开《AI学习应用周报》文件夹,在其中根目录或子目录中找到《AI应用思考与分享.docx》文件,创建副本并修改副本文件名为《AI测试.docx》
action-2 :在桌面找到《AI学习应用周报》,双击进入 → 直接点击了其中的第二个文件夹 → 没找到目标文件的情况下也没有返回上级目录 → 随机单击了两个文件,然后全选了文件 → 尝试检索找不到目标文件就放弃了

以上两项是在极速模式下进行的操作(虽然执行动作也不快),用 prompt-2 在深度思考模式下执行增加了在文件搜索栏输入目标文件名的步骤,嗯哼~这确实有思考哦,但是却没有按下回车!牛牛试了好多遍,还是没把文件搜出来,索性把自己输入到搜索栏的 AI应用思考与分享.docx 给改成了 AI测试.docx,牛牛大失败。笔者没有录屏演示,感兴趣的同学下载玩玩,更能感受到这种技术的魅力。
在这里插入图片描述

4.PandasAI

像是 NLP2SQL 的 NLP2Pandas,可通过自然语言执行 pandas 操作而不用写更多的函数。是个很有意思的强大的开源工具,不止为数据分析师提质增效,还为开发者提供了垂直领域细分的 AI 创新思路。待笔者有空时再单独写一篇测试体验。

Github地址:https://github.com/Sinaptik-AI/pandas-ai

5.探饭

抖音里的探饭小程序,简单来说就是:对话大模型 + 搜餐饮的地图MCP + AI总结评论,比以前的推荐系统更智能?除了推店,还能 PK 比店、辅助点菜(提供参考信息、无法单点、有接近的套餐则可购买)等,选择困难症有救啦 ~ 不知道长期使用会不会有偏好记录,擅长做推荐算法的抖音来做,嗯嗯。┓( ´∀` )┏ 这里应该给我一个商单。
在这里插入图片描述

6.FileNeatAI

AI+文件分类工具,免费体验 100 个文件,可充值后获取更多文件数或本地大模型无限数量。功能逻辑相对简单,在传统 Python 自动化办公的基础上增加 AI 即可,大手子可以自己开发一个(之前笔者就一直想开发类似的东西,奈何拖延症和懒癌发作 总是加班无暇)。
在这里插入图片描述

在这里插入图片描述

二、生产力军火库

本期生产力水军库(不是) 的神器,前两项没实际用过,几个月以来不断的看到有关视频,看起来是能开箱即用的样子。

1.V0

以下为 AI 总结:
V0 是由 Vercel 推出的一个基于AI的生成式用户界面系统,专为快速和高效的用户界面(UI)创建而设计。主要面向需要快速生成用户界面的开发者和设计人员,特别是那些使用 React 和 Tailwind CSS 的项目。它通过 AI 技术简化了前端开发流程,提高了开发效率‌。

2.Blot DIY

以下为 AI 总结:
Bolt.diy ‌是一款由 AI 驱动的自动化网站生成工具,其核心功能是让用户通过简单的文本描述,在无需编写任何代码的情况下自动生成并部署一个网站。Bolt.diy 通过用户的文字输入生成代码,快速构建网站,并进行页面设计与内容展示。它适用于个人主页、博客、公司简介等不同类型的网页需求,提供了一个便利的路径,让网站搭建不再是技术门槛而变成一个创意过程‌。

3.火山引擎AI体验中心

火山引擎中像是各种 AI 开发平台的综合功能就不介绍了,来瞅瞅三个好玩的超级智能体:Computer Use 类似牛牛,Browser Use 算是浏览器特化版,代码沙箱不解释。有免费体验额度,去感受科技吧!─=≡Σ(((つ•̀ω•́)つ 那谁,还不安排一个商单。
在这里插入图片描述

三、前沿动态速递

1.Coolify

以下为 AI 总结:
Coolify 是一款‌开源、可自托管的云原生应用部署平台‌,主要作为 Heroku、Netlify 和 Vercel 的替代方案,支持在自有服务器上快速部署应用程序和管理数据库。目前其 GitHub 仓库已获得超过 24.2K 星标,涵盖自动化部署、多服务器管理等功能。‌‌

2.MIMO-VL-7B

以下为 AI 总结:
小米多模态大模型 ‌MiMo-VL-7B‌ 是小米研发的7B参数开源模型,通过四阶段预训练(2.4T tokens)和混合强化学习(MORL)实现高效跨模态对齐。在奥林匹克竞赛、高考数学(新课标I卷139分)等复杂推理任务中超越同级模型,GUI交互能力达56.1分。技术亮点包括原生视觉编码器、长上下文支持(2.5K token)及轻量化高效表现,已开源至Hugging Face。

3.nano-vLLM

一位 DeepSeek 研究员的个人项目,以下为 AI 总结:
Nano-vLLM 是一个轻量级 vLLM 实现,提供与 vLLM 相当的推理速度(RTX 4070 实测吞吐1314.65 tokens/s)。其核心优势包括:1.2k行 Python 代码的简洁实现,支持前缀缓存、CUDA graph等优化技术,API 兼容 vLLM。适用于需高效离线推理且注重代码可维护性的场景,已开源 GitHub。

4.OmniParser / Stagehand / Open Computer Agent / UI-TARS

各种 AI + 自动化工具,但不是开箱即用,有一定的部署成本,部分开源。

对比维度 \ 工具微软OmniParserStagehand(Browserbase)Open Computer Agent(Hugging Face)字节跳动UI-TARS
技术架构视觉解析双模型LLM+Playwright增强云端VLM+虚拟机端到端多模态智能体
核心功能结构化UI元素输出原子化Web操作基础桌面自动化复杂任务规划
准确性★★★★★★★★☆☆(依赖LLM)★★☆☆☆(低稳定性)★★★★★
响应速度★★★★★(实时)★★★★★(毫秒级)★☆☆☆☆(>30秒延迟)★★★☆☆(迭代响应)
跨平台能力★★★★★(全平台)★★☆☆☆(仅Web)★☆☆☆☆(仅Linux)★★★★★(全平台)
部署成本★★★☆☆(需本地资源)★★★☆☆(集成成本)★★★★★(免费)★★★☆☆(需算力支持)
用户评价开发效率提升显著指令可靠性高排队久、性能不稳定执行效率跃升
最佳场景UI测试/无障碍交互Web自动化脚本简单任务复杂跨平台长任务

5.几篇好文

虽然是3月份发布的文章了,但仍值得一读,点击直达:
1、最新「大模型简史」整理!从Transformer(2017)到DeepSeek-R1(2025)
2、AI Agents全栈技术框架综述与未来!
3、Claude团队开盒Transformer:AI大脑原来这样工作

后记

如果每家都推出超智体,就可以轮流白嫖了。这里是脑瓜子嗡嗡的 Seon塞翁,下一篇再见~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值