前言
2025年6月的个人学习笔记。
一、工具尝鲜快报:好玩的,初探感觉不错,但还未十分深入的工具。
二、生产力军火库:好用的,开箱即用的神器,以及一些隐藏的技巧。
三、前沿动态速递:好看的,个人感兴趣的新工具、动态信息,或一些优质资料。
文章目录
一、工具探索快报
1.Skywork超级智能体
在 2024 年初,笔者体验过天工推出的数据分析智能体,在其他国产 AI 都还只能对话,无法读取 EXCEL 分析,或读取了却没有代码沙箱执行 Python 导致产生一堆统计错误时,天工做到了令人眼前一亮。可惜昙花一现后就下架了,之后各大厂商内卷,再也没用过天工。如今,天工的超级智能体也诞生了!
笔者以制作培训 PPT 为题,与其他类似智能体以及具有 PPT 能力的 AI 进行了对比测试。
prompt:
以《产品经理应该知道的大模型》为题输出培训方案文档,并制作成PPT:
# 要求
- 章节包括:
1.入门篇:大模型基本能力、深度思考与联网、开源与闭源、参数规模与配置要求、数据安全;
2.技术篇:幻觉、提示词、RAG、微调、智能体、MCP。
# 文风参考
一个预训练大模型就像是一个刚毕业的大学生,有一定的学识,但投入到岗位上不一定能直接满足需要,提示词就是你作为导师手把手、一次次的教他该怎么做,RAG就是你给他一本操作手册让他边学边做,微调就是你对他进行专项职业培训。
那也可以类比出,为什么大模型有幻觉,那就是看在大学里他学了什么,他预训练的数据集是什么,多数是互联网数据,所以他可能过于依赖学校里的经验,来处理实际的工作,就出现了不适应症。
12 个 AI 生成 PPT 测试(主观评价):
排名 | AI名称 | 能力描述 |
---|---|---|
1 | KIMI+PPT | 比以前有退步,但同行衬托下还是顶呱呱 |
1.5 | Skywork超级智能体 | 内容结构较好,模版略土 |
2 | 墨刀AI | 需要会员才能下载,第二梯队 |
2 | 智谱 | 非会员每日免费下载1次 |
2 | iSlide | 有免费额度,够体验 |
3 | 通义 | PPT太单调,第三梯队 |
3 | 纳米AI超级搜索 | 无PPT能力,生成图文报告 |
3 | 扣子空间 | 动作最快,效果中庸 |
4 | 豆包 | 无PPT能力,只能提供文字方案 |
4 | 文心 | 无PPT能力,只能提供文字方案 |
4 | 元宝 | 无PPT能力,只能提供文字方案 |
5 | WPS AI | 丢人 |
天工生成的 PPT:
锐评时间:天工的输出整体内容结构很好,确实适合学习,但 KIMI 的画风更美观(可选模版减少了,KIMI 也变穷了吗)。天工是穷怕了,产品不赖,可惜才刚上线都无免费体验次数,送的积分连一次任务都完不成,本来消耗量就不小,充值后积分还限制 90 天内有效,和其他厂商相比略显抠搜。执行时页面会卡住不更新,刷新后才知道它干到哪了。
2.Kimi-Researcher
月之暗面推出的深度研究智能体,据说超越了 Claude 4 Opus 与 Gemini 2.5 Pro(牛蛙牛蛙)。笔者以调研为题,进行了对比测试。
prompt:
- Role: 社会信用体系建设专家
- Background: 用户作为外行人,想要了解社会信用体系建设领域,尤其是国家政策大方向、深圳的落地情况以及结合信息化技术、大数据和AI的应用发展方向,以便撰写一份既专业又通俗易懂的调研报告。
- Profile: 你是一位在社会信用体系建设领域深耕多年、具有深厚理论基础和丰富实践经验的专家,熟悉国家政策法规,对各地社会信用体系的建设情况有深入研究,尤其擅长分析信息化技术、大数据和AI在该领域的应用。
- Skills: 你具备政策解读能力、数据分析能力、技术应用分析能力以及报告撰写能力,能够将复杂的政策和技术内容转化为通俗易懂的语言。
- Goals:
- 梳理国家社会信用体系建设政策的大方向。
- 分析深圳社会信用体系建设的具体落地情况。
- 探讨信息化技术、大数据和AI在社会信用体系建设中的应用发展方向。
- 撰写一份既专业又通俗易懂的调研报告。
- Constrains: 调研报告需基于公开资料和权威数据,确保内容的准确性和客观性,同时要兼顾专业性和通俗性。
- OutputFormat: 调研报告应包含政策解读、案例分析、技术应用探讨和未来展望四个部分,使用图表和实例辅助说明。
- Workflow:
- 收集国家社会信用体系建设相关政策文件,解读政策大方向。
- 调研深圳社会信用体系建设的政策文件、具体措施和实施效果。
- 分析信息化技术、大数据和AI在社会信用体系建设中的应用案例和发展趋势。
- 撰写调研报告,确保内容专业且通俗易懂。
8 个 AI生成调研报告+可视化网页测试(主观评价):
AI \ 对比维度 | 文字篇幅排名 | 文字质量排名 | 可视化图表/网页质量排名 | 交互体验 |
---|---|---|---|---|
纳米AI超级搜索 | 2 | 1 | 1 | ★★★★★☆ |
KIMI深度研究 | 1 | 1 | 1 | ★★★★★ |
Skywork超级智能体 | 4 | 2 | 3 | ★★★ |
扣子空间 | 7 | 3 | 2 | ★★★★★ |
文心X1 | 6 | 3 | 3 | ★★★☆ |
AutoGLM沉思 | 3 | 2 | 无 | ★★★☆ |
Qwen3分析研究 | 5 | 2 | 无 | ★★★★ |
秘塔AI 长思考+研究 | 8 | 3 | 4 | ★★★★ |
超级智能体组输出结果对比图:
专家智能体组(就是不够超级啦)输出结果对比图:
另外试了DS R1、豆包1.5、混元T1,只能说非超智体的推理模型,输出不足以参与到以上擂台,夸克超级框感觉和秘塔类似,必须要下载浏览器这点就劝退了。顺便一提,纳米超级搜索因为资源紧张,有时执行一半就崩了,每月免费5次,心疼跑了一半烧掉的tokens,要是设计中断保留进度的功能就好了,纳米的交互动态效果特别酷炫!
3.GLM-PC
上期吐槽字节开源好多玩具但是没有可以直接用的产品,比如 UI-TARS,今儿个试试功能类似的产品,收藏了很久还没打开过的——智谱推出的 AI 自动化工具,官方昵称:牛牛。
基本流程是录制电脑屏幕,并通过视觉大模型理解页面元素后,操作软件或文件。官方案例是打开浏览器进行搜索之类的,试之无味,但在办公电脑上还不敢让牛牛做太多,试了以下几项,感觉无视安全性不用担心安全性的话,未来很有潜力。
prompt-1:打开钉钉,看一下有什么未读信息
action-1 :在桌面找到钉钉图标,双击打开钉钉界面 → 在界面中找到消息栏,点击 → 在消息页面找到未读选项卡,点击
prompt-2:打开《AI学习应用周报》文件夹,在其中根目录或子目录中找到《AI应用思考与分享.docx》文件,创建副本并修改副本文件名为《AI测试.docx》
action-2 :在桌面找到《AI学习应用周报》,双击进入 → 直接点击了其中的第二个文件夹 → 没找到目标文件的情况下也没有返回上级目录 → 随机单击了两个文件,然后全选了文件 → 尝试检索找不到目标文件就放弃了
以上两项是在极速模式下进行的操作(虽然执行动作也不快),用 prompt-2 在深度思考模式下执行增加了在文件搜索栏输入目标文件名的步骤,嗯哼~这确实有思考哦,但是却没有按下回车!牛牛试了好多遍,还是没把文件搜出来,索性把自己输入到搜索栏的 AI应用思考与分享.docx
给改成了 AI测试.docx
,牛牛大失败。笔者没有录屏演示,感兴趣的同学下载玩玩,更能感受到这种技术的魅力。
4.PandasAI
像是 NLP2SQL 的 NLP2Pandas,可通过自然语言执行 pandas 操作而不用写更多的函数。是个很有意思的强大的开源工具,不止为数据分析师提质增效,还为开发者提供了垂直领域细分的 AI 创新思路。待笔者有空时再单独写一篇测试体验。
Github地址:https://github.com/Sinaptik-AI/pandas-ai
5.探饭
抖音里的探饭小程序,简单来说就是:对话大模型 + 搜餐饮的地图MCP + AI总结评论,比以前的推荐系统更智能?除了推店,还能 PK 比店、辅助点菜(提供参考信息、无法单点、有接近的套餐则可购买)等,选择困难症有救啦 ~ 不知道长期使用会不会有偏好记录,擅长做推荐算法的抖音来做,嗯嗯。┓( ´∀` )┏ 这里应该给我一个商单。
6.FileNeatAI
AI+文件分类工具,免费体验 100 个文件,可充值后获取更多文件数或本地大模型无限数量。功能逻辑相对简单,在传统 Python 自动化办公的基础上增加 AI 即可,大手子可以自己开发一个(之前笔者就一直想开发类似的东西,奈何拖延症和懒癌发作 总是加班无暇)。
二、生产力军火库
本期生产力水军库(不是) 的神器,前两项没实际用过,几个月以来不断的看到有关视频,看起来是能开箱即用的样子。
1.V0
以下为 AI 总结:
V0 是由 Vercel 推出的一个基于AI的生成式用户界面系统,专为快速和高效的用户界面(UI)创建而设计。主要面向需要快速生成用户界面的开发者和设计人员,特别是那些使用 React 和 Tailwind CSS 的项目。它通过 AI 技术简化了前端开发流程,提高了开发效率。
2.Blot DIY
以下为 AI 总结:
Bolt.diy 是一款由 AI 驱动的自动化网站生成工具,其核心功能是让用户通过简单的文本描述,在无需编写任何代码的情况下自动生成并部署一个网站。Bolt.diy 通过用户的文字输入生成代码,快速构建网站,并进行页面设计与内容展示。它适用于个人主页、博客、公司简介等不同类型的网页需求,提供了一个便利的路径,让网站搭建不再是技术门槛而变成一个创意过程。
3.火山引擎AI体验中心
火山引擎中像是各种 AI 开发平台的综合功能就不介绍了,来瞅瞅三个好玩的超级智能体:Computer Use 类似牛牛,Browser Use 算是浏览器特化版,代码沙箱不解释。有免费体验额度,去感受科技吧!─=≡Σ(((つ•̀ω•́)つ 那谁,还不安排一个商单。
三、前沿动态速递
1.Coolify
以下为 AI 总结:
Coolify 是一款开源、可自托管的云原生应用部署平台,主要作为 Heroku、Netlify 和 Vercel 的替代方案,支持在自有服务器上快速部署应用程序和管理数据库。目前其 GitHub 仓库已获得超过 24.2K 星标,涵盖自动化部署、多服务器管理等功能。
2.MIMO-VL-7B
以下为 AI 总结:
小米多模态大模型 MiMo-VL-7B 是小米研发的7B参数开源模型,通过四阶段预训练(2.4T tokens)和混合强化学习(MORL)实现高效跨模态对齐。在奥林匹克竞赛、高考数学(新课标I卷139分)等复杂推理任务中超越同级模型,GUI交互能力达56.1分。技术亮点包括原生视觉编码器、长上下文支持(2.5K token)及轻量化高效表现,已开源至Hugging Face。
3.nano-vLLM
一位 DeepSeek 研究员的个人项目,以下为 AI 总结:
Nano-vLLM 是一个轻量级 vLLM 实现,提供与 vLLM 相当的推理速度(RTX 4070 实测吞吐1314.65 tokens/s)。其核心优势包括:1.2k行 Python 代码的简洁实现,支持前缀缓存、CUDA graph等优化技术,API 兼容 vLLM。适用于需高效离线推理且注重代码可维护性的场景,已开源 GitHub。
4.OmniParser / Stagehand / Open Computer Agent / UI-TARS
各种 AI + 自动化工具,但不是开箱即用,有一定的部署成本,部分开源。
对比维度 \ 工具 | 微软OmniParser | Stagehand(Browserbase) | Open Computer Agent(Hugging Face) | 字节跳动UI-TARS |
---|---|---|---|---|
技术架构 | 视觉解析双模型 | LLM+Playwright增强 | 云端VLM+虚拟机 | 端到端多模态智能体 |
核心功能 | 结构化UI元素输出 | 原子化Web操作 | 基础桌面自动化 | 复杂任务规划 |
准确性 | ★★★★★ | ★★★☆☆(依赖LLM) | ★★☆☆☆(低稳定性) | ★★★★★ |
响应速度 | ★★★★★(实时) | ★★★★★(毫秒级) | ★☆☆☆☆(>30秒延迟) | ★★★☆☆(迭代响应) |
跨平台能力 | ★★★★★(全平台) | ★★☆☆☆(仅Web) | ★☆☆☆☆(仅Linux) | ★★★★★(全平台) |
部署成本 | ★★★☆☆(需本地资源) | ★★★☆☆(集成成本) | ★★★★★(免费) | ★★★☆☆(需算力支持) |
用户评价 | 开发效率提升显著 | 指令可靠性高 | 排队久、性能不稳定 | 执行效率跃升 |
最佳场景 | UI测试/无障碍交互 | Web自动化脚本 | 简单任务 | 复杂跨平台长任务 |
5.几篇好文
虽然是3月份发布的文章了,但仍值得一读,点击直达:
1、最新「大模型简史」整理!从Transformer(2017)到DeepSeek-R1(2025)
2、AI Agents全栈技术框架综述与未来!
3、Claude团队开盒Transformer:AI大脑原来这样工作
后记
如果每家都推出超智体,就可以轮流白嫖了。这里是脑瓜子嗡嗡的 Seon塞翁,下一篇再见~