北京时间凌晨,谷歌发布最新版Gemini 2.5 Pro。这款被誉为 “最智能” 的模型,首次在3月份宣布,随后在5月份进行了升级。
此次更新,距离谷歌上次更新仅仅过去一个月。而「月更」的Gemini 2.5 Pro(06-05),不仅全方位打败旧版模型,更在各大AI榜单中再次拿下第一。
在权威评测平台LMArena的最新榜单上,相较于旧版本,LMArena测试分数提高了24分,WebDevArena 则提升了35分,当前在排行榜上名列前茅。
谷歌的基准测试显示,该模型在编码能力上超过了o3、o3-mini、o4-mini,Anthropi的Claude4Opus,以及xAI的Grok3Beta 和DeepSeek R1等竞争对手。
同时,在编码能力方面,它也是碾压级别的存在,在高难度的测试GPQA 和 “人类的最后考试”(HLE)测试中,Gemini2.5Pro显示出其强大的智能化能力。
此外,谷歌回应了用户关于之前版本性能波动的反馈,表示已经对模型在风格和结构方面进行了优化,使其更加具备创造性和清晰的回答格式,从而提升了用户的交互体验。
「月更」背后的算力引擎
谷歌的“月更”迭代速度在传统AI研发中难以想象,其背后是谷歌全球分布的超级计算集群在提供支撑。
今年 4 月,谷歌发布第七代 TPU Ironwood——这颗专为深度思考模型打造的芯片,单卡算力达4614 Teraflops,媲美英伟达旗舰B200,而其自研的Jupiter光交换网络,可将9216块芯片拼接为 42.5 ExaFLOPS(百亿亿次)的超级智算集群。
【图片来源于网络,侵删】
而其他竞争对手,以xAI为例,其为了训练Grok 3也配备了20万个NVIDIA H100 GPU 组成的Colossus超级计算机,累计训练时长达2亿GPU小时。
另一方面,算力投入正成为科技巨头的关键一战。
微软、谷歌等AI巨头全年资本支出大幅增长,并投入巨额资金用于服务器和数据中心的建设。
Meta更将年度资本开支计划上调,全力押注AI产品开发及数据中心建设。
算力:AI竞赛的核心战场
谷歌的闪电迭代揭示了一个残酷现实:在当今AI竞赛中,算力基础设施已成为决定胜负的核心要素之一。
加强算力基础设施建设,正成为国内外科技发展共识。
政策层面,中国正加速算力基础设施建设。根据《算力基础设施高质量发展行动计划》,到2025年,中国智能算力在总算力中的占比将由现在的20%左右提升至35%。目前全国已有超过30个城市在建或筹建智算中心。
整个社会都在向数字化转型,这轮AI发展的浪潮毋庸置疑会带来一次新的工业革命和智能革命,整个算力产业都将成为人类社会基础设施级的存在。