小米 AI 眼镜：主打「小爱 AI 语音助手」和「第一视角拍照录像」；出门问问发布硬件 TicNote：录音过程可发起对话丨日报

RTE开发者社区

于 2025-06-26 20:41:12 发布

阅读量620

点赞数 10

CC 4.0 BY-SA版权

文章标签：人工智能

本文链接：https://blog.csdn.net/agora_cloud/article/details/148932694

在这里插入图片描述
开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

1、ElevenLabs 推出 Voice Design v3，允许用户更精细地控制语调、个性、音色、语速、语调变化、年龄和性别

ElevenLabs 发布了 Voice Design v3，该版本通过基于提示词的控制，增强了 70 多种语言的语音表现力，并支持数百种本地化口音。新版本允许用户更精细地控制语调、个性、音色、语速、语调变化、年龄和性别。

Voice Design v3 与 Eleven v3 及富有表现力的音频标签兼容，并通过重建底层模型实现了更高音频质量。此更新旨在提供更自然、更像人类的语音合成，与当前关于韵律特征的研究保持一致。

Voice Design v3 的新功能：

对角色韵律和个性的更精细控制——语调、节奏、语气、年龄和性别；
兼容 Eleven v3 和富有表现力的【音频标签】；
支持超过 70 种语言的扩展；
改进的口音处理；
更高的音频质量。

（@橘鸭 Juya、@elevenlabsio@X）

2、Google 推出开源 AI 编程智能体，支持通过自然语言实现代码编写、问题调试以及简化工作流

6 月 25 日，Google 正式宣布推出开源 AI 智能体 Gemini CLI，旨在将 Gemini 的能力直接接入终端，从而能够提供轻量化的 Gemini 访问通道。

官方介绍，Gemini CLI 支持通过自然语言实现代码编写、问题调试以及简化工作流。基于内置工具，Gemini CLI 可以为用户提供以下能力：

联网搜索：通过 Google 搜索获取网页内容，为模型提供实时外部上下文；
支持 MCP（上下文协议）及捆绑扩展；
可根据个性化需求进行自定义提示词；
脚本集成：支持非交互式调用，实现任务自动化与现有工作流对接。

值得一提的是，Gemini CLI 还可用于多种任务，如视频内容生成、深度研究及任务管理等。

Gemini CLI 采用 Apache 2.0 开源协议，开发者可随时审查代码实现、验证安全机制。同时 Gemini CLI 基于 MCP 等标准构建，支持通过 GEMINI.md 文件配置系统提示词，并提供个人和团队两级设置。

另外，Google 的 AI 编程助手 Gemini Code Assist 现已与 Gemini CLI 共享技术底座。在 VS Code 的智能体模式中，用户可以获得与 Gemini CLI 一样的编码体验：Code Assist 将自动执行测试编写、错误修复、功能开发、代码迁移等任务，并且还能够基于复杂提示构建多步骤实施计划，自动修正失败路径，并提供解决方案。

目前，Gemini CLI 采用 Apache 2.0 开源协议，开发者可随时审查代码实现、验证安全机制。该工具基于 MCP 等标准构建，支持通过 GEMINI.md 文件配置系统提示词，并提供个人/团队两级设置。全球开发者可以通过提交漏洞报告、功能建议、安全强化方案及代码优化（GitHub 仓库已开放）（@APPSO、@智东西）

3、Inworld AI 推出 Inworld TTS，支持 11 种语言，实现 200 毫秒的初始音频块延迟

Inworld AI 推出了 Inworld TTS，这项文本到语音（TTS）技术在显著降低成本的同时，依然保持了卓越的语音合成质量和性能。此项突破旨在消除开发者在扩展语音 AI 应用时面临的成本与质量之间的权衡。

主要亮点：

成本效益： Inworld TTS 将 TTS 技术成本显著降低，现在其每百万字符仅需 5
美元。这使得高质量语音生成技术对各种规模的开发者都更易配置。
卓越性能： Inworld TTS-1 模型提供行业领先的生成质量，包括情感和风格控制，支持 11 种语言，并实现了 200毫秒的初始音频块延迟，适合配置于实时交互应用。
开源承诺： Inworld AI 计划在未来几周内开源基于 Llama 框架的训练和建模代码，以促进社区协作和进一步创新。

相关链接：https://inworld.ai/blog/introducing-inworld-tts （@ inworld_ai@X）

02有亮点的产品

1、小米 AI 眼镜正式亮相，仅需一句「小爱同学，开始录像」即可录制第一视角视频

6 月 25 日，小米公布旗下「小米 AI 眼镜」，新品将于 6 月 26 日的「人车家全生态发布会」正式发布。

据博主「数码闲聊站」消息，小米 AI 眼镜硬件规格基本复用苹果/Meta 的顶级供应链，并且产品定位对标 Ray-Ban Meta，主打「小爱 AI 语音助手」以及「第一视角拍照录像」。

从官方放出的样片来看，用户仅需一句「小爱同学，开始录像」即可录制第一视角视频；并且支持实时拍摄内容识别。

此前 XR Vision 曾透露，小米 AI 眼镜将采用高通 AR1+恒玄 2700 的芯片配置，搭载索尼 IMX681 图像传感器。据悉，小米采用双 SoC 芯片的原因是为兼顾低功耗需求和视频拍摄场景。而据机构维深信息对小米 AI 眼镜的 BOM 成本预测，该产品的税后综合成本约 1281 元。

另外，小米还正式公布了小米手环 10 的外观信息。

小米手环 10 设计与前代类似，采用椭圆形跑道设计。从官方公布的信息来看，屏幕边框或将采用四等边设计。材质方面，小米手环 10 将提供彩色陶瓷版本。(@ APPSO)

2、ElevenLabs 推出独立移动应用：免费用户享 10 分钟文本转语音额度

语音人工智能公司 ElevenLabs 推出独立移动应用，iOS 和 Android 用户可将文本转成语音片段。此前只能用网页应用，现移动应用让用户随时生成语音。免费套餐提供约 10 分钟音频生成时间，网页版与移动版共享额度。

该应用接入 Eleven v3 模型，可控制语音情感，支持生成多达 70 种语言的逼真语音。而且可以将配音直接导出到 CapCut、iMovie、Instagram 或用户选择的其他视频应用。

该公司此前有相关布局，未来还计划推出语音转文本等新功能。

ElevenLabs 移动应用免费下载。

iOS：https://apps.apple.com/us/app/elevenlabs-ai-voice-generator/id6743162587
Android：https://play.google.com/store/apps/details?id=io.elevenlabs.coreapp&hl=en_US&pli=1 （@elevenlabsio@X、@雨询）

3、全球首款 Agentic AI 硬件产品 TicNote：支持录音过程中发起语音对话

6 月 25 日首款 Agentic AI 硬件产品 TicNote 正式在国内发布。发布会上，出门问问创始人李志飞强调，这不只是录音笔、翻译器或语音助手，而是一个「随身的 AI 思考伙伴」。TicNote 能够将会议录音、笔记、文档等转变为结构化的 AI 知识库，并且一站式为用户提供他们所熟悉的各种大语言模型生成服务。在完成录音后，内容会自动上传到手机里，用 DeepSeek 或 GPT-4o 等大模型进行解读，生成用户需要的各种会议纪要和深度思考内容。

TicNote 通过持续记录用户的工作与生活信息，TicNote 实际上成为了一个 7×24 小时陪伴用户的「超级助理」，可以基于日常交流内容和大模型的推理能力，主动提供工作灵感与洞察。

TicNote 的外观类似一块小巧的磁吸充电宝，机身厚度约为 3 毫米，可以整天通过磁吸方式贴附在手机背面，几乎不影响日常使用。与传统录音笔不同，TicNote 的卡片式设计从一开始就面向「全天候记录」的使用场景。用户可以通过机身上的物理拨杆轻松控制录音开关，操作直观便捷。

除了转写和总结等基础功能外，TicNote 最大的特色是其内置的 AI Agent「Shadow AI」。支持实时对话、逻辑推理、知识整合和写作建议，能够更深入地理解用户的内容创作需求。无论是在工作、学习，还是灵感探索的过程中，它都能与用户保持对话，协助完成任务，成为一个贴身的智能助手。

同时 TicNote 的「闪聊」功能是一种「边录边问」的交互模式，支持用户在录音过程中随时发起语音对话，快速回顾前文内容、提取重点信息，适用于采访、会议等需要即时反馈的场景。

Web 版本：https://ticnote.cn/（@极客公园、@ APPSO）