开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
1、ElevenLabs 推出 Voice Design v3,允许用户更精细地控制语调、个性、音色、语速、语调变化、年龄和性别
ElevenLabs 发布了 Voice Design v3,该版本通过基于提示词的控制,增强了 70 多种语言的语音表现力,并支持数百种本地化口音。新版本允许用户更精细地控制语调、个性、音色、语速、语调变化、年龄和性别。
Voice Design v3 与 Eleven v3 及富有表现力的音频标签兼容,并通过重建底层模型实现了更高音频质量。此更新旨在提供更自然、更像人类的语音合成,与当前关于韵律特征的研究保持一致。
Voice Design v3 的新功能:
-
对角色韵律和个性的更精细控制——语调、节奏、语气、年龄和性别;
-
兼容 Eleven v3 和富有表现力的【音频标签】;
-
支持超过 70 种语言的扩展;
-
改进的口音处理;
-
更高的音频质量。
(@橘鸭 Juya、@elevenlabsio@X)
2、Google 推出开源 AI 编程智能体,支持通过自然语言实现代码编写、问题调试以及简化工作流
6 月 25 日,Google 正式宣布推出开源 AI 智能体 Gemini CLI,旨在将 Gemini 的能力直接接入终端,从而能够提供轻量化的 Gemini 访问通道。
官方介绍,Gemini CLI 支持通过自然语言实现代码编写、问题调试以及简化工作流。基于内置工具,Gemini CLI 可以为用户提供以下能力:
-
联网搜索:通过 Google 搜索获取网页内容,为模型提供实时外部上下文;
-
支持 MCP(上下文协议)及捆绑扩展;
-
可根据个性化需求进行自定义提示词;
-
脚本集成:支持非交互式调用,实现任务自动化与现有工作流对接。
值得一提的是,Gemini CLI 还可用于多种任务,如视频内容生成、深度研究及任务管理等。
Gemini CLI 采用 Apache 2.0 开源协议,开发者可随时审查代码实现、验证安全机制。同时 Gemini CLI 基于 MCP 等标准构建,支持通过 GEMINI.md 文件配置系统提示词,并提供个人和团队两级设置。
另外,Google 的 AI 编程助手 Gemini Code Assist 现已与 Gemini CLI 共享技术底座。在 VS Code 的智能体模式中,用户可以获得与 Gemini CLI 一样的编码体验:Code Assist 将自动执行测试编写、错误修复、功能开发、代码迁移等任务,并且还能够基于复杂提示构建多步骤实施计划,自动修正失败路径,并提供解决方案。
目前,Gemini CLI 采用 Apache 2.0 开源协议,开发者可随时审查代码实现、验证安全机制。该工具基于 MCP 等标准构建,支持通过 GEMINI.md 文件配置系统提示词,并提供个人/团队两级设置。全球开发者可以通过提交漏洞报告、功能建议、安全强化方案及代码优化(GitHub 仓库已开放)(@APPSO、@智东西)
3、Inworld AI 推出 Inworld TTS,支持 11 种语言,实现 200 毫秒的初始音频块延迟
Inworld AI 推出了 Inworld TTS,这项文本到语音 (TTS) 技术在显著降低成本的同时,依然保持了卓越的语音合成质量和性能。此项突破旨在消除开发者在扩展语音 AI 应用时面临的成本与质量之间的权衡。
主要亮点:
-
成本效益: Inworld TTS 将 TTS 技术成本显著降低,现在其每百万字符仅需 5
美元。这使得高质量语音生成技术对各种规模的开发者都更易配置。 -
卓越性能: Inworld TTS-1 模型提供行业领先的生成质量,包括情感和风格控制,支持 11 种语言,并实现了 200毫秒的初始音频块延迟,适合配置于实时交互应用。
-
开源承诺: Inworld AI 计划在未来几周内开源基于 Llama 框架的训练和建模代码,以促进社区协作和进一步创新。
相关链接:https://inworld.ai/blog/introducing-inworld-tts (@ inworld_ai@X)
02有亮点的产品
1、小米 AI 眼镜正式亮相,仅需一句「小爱同学,开始录像」即可录制第一视角视频
6 月 25 日,小米公布旗下「小米 AI 眼镜」,新品将于 6 月 26 日的「人车家全生态发布会」正式发布。
据博主「数码闲聊站」消息,小米 AI 眼镜硬件规格基本复用苹果/Meta 的顶级供应链,并且产品定位对标 Ray-Ban Meta,主打「小爱 AI 语音助手」以及「第一视角拍照录像」。
从官方放出的样片来看,用户仅需一句「小爱同学,开始录像」即可录制第一视角视频;并且支持实时拍摄内容识别。
此前 XR Vision 曾透露,小米 AI 眼镜将采用高通 AR1+恒玄 2700 的芯片配置,搭载索尼 IMX681 图像传感器。据悉,小米采用双 SoC 芯片的原因是为兼顾低功耗需求和视频拍摄场景。而据机构维深信息对小米 AI 眼镜的 BOM 成本预测,该产品的税后综合成本约 1281 元。
另外,小米还正式公布了小米手环 10 的外观信息。
小米手环 10 设计与前代类似,采用椭圆形跑道设计。从官方公布的信息来看,屏幕边框或将采用四等边设计。材质方面,小米手环 10 将提供彩色陶瓷版本。(@ APPSO)
2、ElevenLabs 推出独立移动应用:免费用户享 10 分钟文本转语音额度
语音人工智能公司 ElevenLabs 推出独立移动应用,iOS 和 Android 用户可将文本转成语音片段。此前只能用网页应用,现移动应用让用户随时生成语音。免费套餐提供约 10 分钟 音频生成时间,网页版与移动版共享额度。
该应用接入 Eleven v3 模型,可控制语音情感,支持生成多达 70 种语言的逼真语音。而且可以将配音直接导出到 CapCut、iMovie、Instagram 或用户选择的其他视频应用。
该公司此前有相关布局,未来还计划推出语音转文本等新功能。
ElevenLabs 移动应用免费下载。
iOS:https://apps.apple.com/us/app/elevenlabs-ai-voice-generator/id6743162587
Android:https://play.google.com/store/apps/details?id=io.elevenlabs.coreapp&hl=en_US&pli=1 (@elevenlabsio@X、@雨询)
3、全球首款 Agentic AI 硬件产品 TicNote:支持录音过程中发起语音对话
6 月 25 日首款 Agentic AI 硬件产品 TicNote 正式在国内发布。发布会上,出门问问创始人李志飞强调,这不只是录音笔、翻译器或语音助手,而是一个「随身的 AI 思考伙伴」。TicNote 能够将会议录音、笔记、文档等转变为结构化的 AI 知识库,并且一站式为用户提供他们所熟悉的各种大语言模型生成服务。在完成录音后,内容会自动上传到手机里,用 DeepSeek 或 GPT-4o 等大模型进行解读,生成用户需要的各种会议纪要和深度思考内容。
TicNote 通过持续记录用户的工作与生活信息,TicNote 实际上成为了一个 7×24 小时陪伴用户的「超级助理」,可以基于日常交流内容和大模型的推理能力,主动提供工作灵感与洞察。
TicNote 的外观类似一块小巧的磁吸充电宝,机身厚度约为 3 毫米,可以整天通过磁吸方式贴附在手机背面,几乎不影响日常使用。与传统录音笔不同,TicNote 的卡片式设计从一开始就面向「全天候记录」的使用场景。用户可以通过机身上的物理拨杆轻松控制录音开关,操作直观便捷。
除了转写和总结等基础功能外,TicNote 最大的特色是其内置的 AI Agent「Shadow AI」。支持实时对话、逻辑推理、知识整合和写作建议,能够更深入地理解用户的内容创作需求。无论是在工作、学习,还是灵感探索的过程中,它都能与用户保持对话,协助完成任务,成为一个贴身的智能助手。
同时 TicNote 的「闪聊」功能是一种「边录边问」的交互模式,支持用户在录音过程中随时发起语音对话,快速回顾前文内容、提取重点信息,适用于采访、会议等需要即时反馈的场景。
Web 版本:https://ticnote.cn/(@极客公园、@ APPSO)
03有态度的观点
1、AI 经济学家:全面超越人类智力的 AGI,或许只需要 2-5 年就能问世
日前,弗吉尼亚大学经济学教授、AI 经济学家 Anton Korinek 日前接受哈佛商学院的采访。采访中,Anton 预测了 AI 时代下,AGI(通用人工智能)和劳动力市场会走向何方。
Anton 表示,AI 的进化速度早已超越想象。在多个领域中,AI 超越多数人类的同时,还能做到在部分计划的基准测试中达到「饱和」状态。
对此,Anton 大胆预测,全面超越人类智力的 AGI,或许只需要 2-5 年就能问世;另外,更强大的人工超级智能也非天方夜谭。Anton 还表示,若人类真的实现了 AGI,那么这就将是经济领域的一次绝对根本性的转折。
但 AGI 诞生的同时,人类的劳动力、生产力也会受到影响。Anton 指出,AGI 基本能完成人类劳动者所做的任何事情,并且价格便宜。但也因如此,人类的工资或劳动力市场的价值,会随着被「替代」而下降。
而对于「AI 影响人类经济」这件事情,Anton 则表示「目前表现出来的实际影响很小,但在未来几年内,AI 将对经济造成颠覆性的巨大影响。」
对于普通人来讲,Anton 则建议要「时刻关注 AI 领域动态,然后据此不断更新自己已经制定的计划。」
采访视频:https://www.youtube.com/watch?v=YpbCYgVqLlg (@ APPSO)
2、北大黄益平教授:AI 对金融、制造、服务等各行业有全方位影响,在推动技术发展的同时,必须兼顾人文关怀
日前,北大国家发展研究院院长黄益平教授在达沃斯论坛期间,围绕 AI 影响、中美经贸形势及中国经济转型展开分析。
黄益平教授提出需平衡技术发展与人文关怀,通过创新驱动和合理分配机制应对目前社会现存挑战。
黄教授表示,AI 作为一种通用技术,对金融、制造、服务等各行业影响全方位,对劳动力市场冲击尤为直接,引发产能过剩等问题。他呼吁在推动技术发展的同时,必须兼顾人文关怀,避免出现大规模失业。
黄教授还谈到,中国在人口红利消退阶段,创新以及 AI 技术作为必然的未来驱动力,会一定程度上应对人口老龄化和劳动力短缺问题。与此同时, AI 替代劳动者也可能引发收入分配失衡等社会性问题。
对此,黄教授提出,在经济可持续发展的前提下,应当探索减少工作时间(减少至一周工作 2-3 天)、增加消闲时间的可能性,同时激发老年群体消费潜力,以解决生产与消费失衡这一难题。最终实现「科技发展+人文关怀」的可持续发展。(@ APPSO)
更多 Voice Agent 学习笔记:
11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨Voice Agent 学习笔记
实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记
级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻