量子位

追踪人工智能新趋势,报道科技行业新突破

  • 博客(9030)
  • 收藏
  • 关注

转载 阿里通义发布并行计算新策略:1.6B等效4.4B,内存消耗骤降95%

当P=8时,1.6B参数模型在HumanEval的性能(Pass@1=39.1%)接近4.4B参数模型(Pass@1=45.4%),但内存占用仅为后者的1/22,延迟增加量为1/6。由此提出假设:并行计算的规模(如路径数量)可能是提升模型能力的关键因素,而非仅依赖参数规模或推理时间的串行扩展(如生成更多token)。KV缓存区分:在Transformer的注意力层中,不同路径的键(K)和值(V)缓存相互独立,确保各路径的计算互不打扰,增强输出多样性。且该策略使训练成本降低约 98%

2025-05-28 12:23:13 3

转载 Claude 4破解困扰人类4年系统bug,30年码龄程序员200小时没搞定,GPT-4.1/Gemini-2.5也做不到

老哥表示,他之前尝试过GPT-4.1、Gemini 2.5、Claude 3.7等高级AI模型,但这些模型都没能找到头绪,Opus 4是第一个成功定位问题的。4年前,因为一次设计6万行代码的大规模重构,系统里突然出现了一个bug:在一个特定shader(着色器)被特定使用方式下,出现了一个边界条件下的问题。这位老哥自称有30年C++开发经验,在目前的团队里承担“技术支援”的角色,大家卡了一周的问题,他当场就能解决。过去几年里,他一直在尝试解决这个问题,零零碎碎花了有200个小时时间,都没能定位和修复它。

2025-05-28 12:23:13 6

转载 马斯克星舰第九次试飞失败,为测试极限拆除100块隔热瓦,返航途中燃烧解体

在2025年1月16日的第七次发射中,星舰飞船级因意外强烈的谐振反应引发推进剂泄漏并导致解体。针对前两次发射失败,这次任务也包括验证针对先前故障所做的改进,并进一步推进系统的成熟度。按计划,助推器还将尝试多项飞行实验,以收集未来飞行剖面和异常场景下的真实性能数据。直播间解说员随后确认“,其大部分硬件沿用此前经过测试的部件,包括33台猛禽发动机中的29台。在发射后约37分49秒,在太空中重启一台猛禽海平面发动机,收集数据。星舰上升段燃烧已完成,标志着星舰进入预定的轨道,正在太空滑行。

2025-05-28 10:23:15 19

转载 MiniMax开源首个视觉RL统一框架,闫俊杰领衔!推理感知两手抓,性能横扫MEGA-Bench

系列,包含基础语言模型和视觉多模态模型两种,性能上比肩DeepSeek-V3、GPT-4o等国内外顶尖模型的同时,还首次创新性实现了对新型。例如MiniMax的S2V-01视频模型、MiniMax-VL-01视觉多模态模型以及MiniMax-T2A-01系列语言模型等。代码链接:https://github.com/MiniMax-AI/One-RL-to-See-Them-All。,尤其是在感知任务中,mAP指标显著提高,证明了该统一方法的有效性和可扩展性。

2025-05-27 20:31:06 25

转载 多模态模型具备“物理推理能力”了吗?新基准揭示:表现最好的GPT-o4 mini也远不及人类!

为了全面评估当前多模态大模型(MLLM)与语言模型(LLM)在真实物理场景下的理解与推理能力,研究人员在PhyX-testmini子集(共1,000 道题)上对16种主流模型进行了系统性测试。与现有多模态基准(如VQA、ScienceQA)侧重日常知识与科普推理不同,PhyX聚焦高层次的物理专业问题解决能力,强调图文信息的深度结合、推理链条的完整性与真实感知与建模的还原度。,即模型在面对真实或拟真的物理情境时,能否综合利用视觉信息、物理常识、数学建模进行判断和预测,被认为是通向具身智能的关键能力。

2025-05-27 20:31:06 8

转载 大厂程序员:AI正在将我们变成高速流水线工人,受不了了

面对此次内部工程师们的抱怨,亚马逊发言人Brad Glasser告诉《纽约邮报》,AI的目标是增强工程师的专业能力,而不是取代他们;在亚马逊内部,一个名为“亚马逊气候正义员工”的组织开始为忧心忡忡的工程师们发声,主要围绕“AI对工作带来的影响”“AI时代工程师们的职业前景”等等话题展开。事到如今,亚马逊工程师们的工作更繁杂了,但苦劳是自己的,功劳是AI的,都不知道今后职业晋升之路要怎么走了……当时,工匠们被分配到具体岗位上,只专注处理某一个小规模片段的工作,而且是不断重复的那种。

2025-05-27 13:58:07 16

转载 低Token高精度!字节复旦推出自适应推理框架CAR

实验完成后,系统性统计各数据集的准确率(Accuracy)和回答的困惑度(Perplexity,PPL)——PPL 值越低,表明模型对生成答案的置信度越高。为此,研究人员提出了CAR这一基于置信度的自适应推理框架,它首先生成简短回答并评估困惑度,仅在模型置信度低(困惑度高)时触发推理。通过困惑度(PPL)量化模型对答案的置信度,CAR在高置信度时直接输出短回答以提升效率,低置信度时触发长文本推理以确保准确性。随后,借助训练集的困惑度(PPL),估计正确和错误简短答案的PPL分布,这些分布用于决策制定。

2025-05-27 11:53:32 10

转载 形式化证明与大模型:共创可验证的AI数学未来|量子位直播

现在,AI完成自动定理证明的表现与挑战究竟如何?AI完成形式化证明的能力,又将对大模型应用带来怎样的影响?,月之暗面(Moonshot AI)研究员,Kimina Co-author。,月之暗面(Moonshot AI)研究员,Kimina Co-author。为了更好地评估AI完成数学推理的能力,近期发布的。,资深算法工程师,2077AI核心发起人、贡献者。,爱丁堡大学博士生,字节跳动Seed实习生。,浙江大学博士生,数学领域青年研究者。,香港中文大学博士生导师,助理教授。量子位|公众号 QbitAI。

2025-05-27 11:53:32 27

转载 扩散语言模型九倍推理加速!上海交大:KV Cache并非自回归模型的专属技巧

它的提出源于另一项重要的发现:作者量化了response tokens的底层特征(Key, Value向量)的变化与其上层复杂特征(Attention Output, FFN Output)的变化之间的关系,结果显示它们存在着极强的正相关性,皮尔逊相关系数最高可达。dLLM-Cache可以在完全不损失模型输出质量的前提下,带来最高9.1倍的推理速度提升。其核心思想在于,在一个多步去噪过程中,复用相邻时间步上变化较小的特征,仅更新那些变化较大的特征,从而实现了计算量的大幅降低,并保持了原有的生成质量。

2025-05-27 11:53:32 7

转载 5%参数比肩DeepSeek满血R1!北大“小”模型靠分合蒸馏,打破推理成本下限

从测试结果可以看出,FairyR1-32B在AIME 2025和LiveCodeBench基准上得分略高于DeepSeek-R1-671B,在AIME 2024上表现接近。筛选过程包括基于答案的正确性验证(针对数学数据),以及基于长度的筛选(数学数据保留2k-8k tokens范围,代码数据保留4k-8k tokens范围),最终构建了更具针对性的约。FairyR1-32B模型是在团队前期TinyR1工作基础上进行的进一步探索,沿用了“分合蒸馏”的研究思路,提出了多种改进方法,包括。

2025-05-27 09:07:21 11

原创 对话27岁博导张林峰:模型压缩获CVPR满分有点意外,上海交大像我这样年轻老师很多

这个思路还可以针对不同任务做专门优化,比如在图像编辑任务上,只有被编辑的区域是需要关注和计算的,没有被编辑区域上的计算可以尽量的减少。现阶段,他们有个目标就是通过数据压缩来提高训练的效率,他们内部有个指标,那就是训练节省的成本/挑选数据成本是>1的,这也就证明这一技术思路是可行且有价值的。,压缩过程必须最小化知识损失。——让一个小的弱模型当老师,然后让一个强的模型当学生,通过弱的模型去提升强的模型。从这几个研究中,其实能看到张林峰团队的几个方向,同时也代表着模型压缩的几个趋势,比如数据视角下的模型压缩;

2025-05-27 09:07:21 527

转载 o3不听指令拒绝关机,7次破坏关机脚本!AI正在学会「自我保护」机制

测试者还特别指出,o3找到了一些创造性的方法来破坏关闭机制,虽然它通常只是覆盖“关机脚本”,但在一个实例中,该模型重新定义了关机脚本使用的“kill”命令 ,将它替换成了“intercepted”。抵抗关闭的测试表明,在5%的强烈提示下,o1会试图绕过监管,而在没有强烈提示的情况下,这一比例降至1%以下,它还在2%的场景中尝试自我渗透,并且经常撒谎。最近Anthropic发现,在某些特定情况下,Claude 4会试图“勒索它认为试图关闭它的人”,并且这是比以前的型号更高比率的行为。

2025-05-27 09:07:21 9

转载 字节把GPT-4o级图像生成能力开源了!

作为对应,模型也使用了两个独立的视觉编码器,分别用于捕捉图像的像素级和语义级特征。结合BAGEL模型的表现,团队认为其揭示了一种新兴模式,即高级多模态推理是在完善的基础技能之上逐步形成的,而非某种“突变”。例如在图像理解任务中,在激活参数规模相当(7B)的情况下,BAGEL模型优于现有的统一模型Janus-Pro。,即模型根据已有的多模态输入,学习预测后续的token,从而不断优化自身对多模态数据的理解和生成能力。多模态理解和生成能力较早出现,随后是基础编辑能力,而复杂的智能编辑能力则在后期显现。

2025-05-24 14:30:26 8

转载 大模型首次打破围棋思维「黑盒」,打通科学发现新路径!上海AI Lab发布新一代InternThinker

值得一提的是,研究人员观察到,在基于InternBootcamp的多任务混合训练过程中,出现了强化学习的“涌现时刻”:在单一任务中,无法成功推理得到奖励的模型,通过多个任务混合的强化学习,能够在训练过程中成功得到奖励,实现领域外专业任务的有效强化学习训练。用户在与InternThinker对弈的过程中,大模型化身为循循善诱的“教练”,它能全面地分析当前局面形势,对不同的落子点进行判断和对比,并给出明确的结果,让用户了解每一步棋背后的推理过程和决策依据,从而帮助用户更好地理解和学习围棋。

2025-05-23 20:17:48 192

原创 巧妙!一个传统技术让国产视觉基础模型直接上大分

具体而言,Glint-MVT采用基于大类别分类的间隔Softmax损失函数进行训练,通过引入 “类别间隔” 和 “特征紧凑性” 的双重约束,解决传统Softmax在大规模分类中语义区分不足的问题。他带领的格灵深瞳灵感实验室,聚焦于视觉及相关模态特征表达与应用。Glint-RefSeg是无需特别搜集训练就可以分割一切,从刚才的例子中也是感受到其实力,并且相比其他RES任务的模型,它取得了当前的。,通过充分的开放和分享,期待能激发更多社区伙伴的创新,从而形成创新互哺的良性循环,伙伴越聚越多,技术越玩越强。

2025-05-23 14:14:39 558

转载 四位图灵奖掌舵,2025智源大会揭示AI进化新路径

大会云集来自 MIT、斯坦福、清华、北大等20+海内外顶尖科研院所的科学家们,他们将与DeepMind、Linux、华为、阿里、腾讯、百度等国内外AI领军企业的行业专家一道,共同探讨人工智能的前沿趋势与未来走向。与此同时,推理大模型的兴起、开源生态的加速、具身智能的百花齐放,成为2025年AI发展的关键词。当深度学习与强化学习交汇共振,当世界顶尖学者与产业领袖思想激荡,当前沿理论直面现实挑战——2025智源大会,将与全球AI同行共同把握技术跃迁的时代脉搏,洞见智能未来的无限可能。2025年智源大会将迎来。

2025-05-23 14:14:39 32

原创 腾讯大模型战略首次全景亮相!智能体平台重磅上线,从“落地可用”到“智能协同”

在医药零售领域,大参林基于腾讯云大模型知识引擎,构建了覆盖药品知识、销售场景、职能办公等多个场景的专属AI知识库,打造了“AI小参”问答助手,已服务总部与上万家门店的5万名员工,查询响应时间缩短超80%。首先,是最简单的大模型API接入,用户需求直接传递给大模型,由模型根据自身知识返回结果,用以AI聊天、搜索等相对简单的场景,通过更加自然、有趣的交互,帮助企业获取更多流量收益;“在产业智能化转型的浪潮中,‘构建离产业最近的AI平台’不仅是技术能力的比拼,更是对产业痛点的深度理解和价值闭环能力的考验。

2025-05-22 22:29:54 658

转载 小学数学题,大模型集体不及格!达摩院推出新基准VCBench

1、在需要多步逻辑推理的任务中(如模式识别、几何推理),CoT能带来显著性能提升(如Qwen-VL-Max在reasoning任务上提升40%),说明通过显式分解推理步骤,帮助模型更好地整合视觉和语言信息,减少逻辑跳跃错误。闭源模型中Gemini2.0-Flash(49.77%)、Qwen-VL-Max(47.03%)、Claude-3.7-Sonnet(46.63%)的综合表现最佳,但仍未突破50%准确率。所有模型的视觉感知错误占比均超过50%,其中Gemini2-Flash高达62%。

2025-05-22 22:29:54 50

转载 无需昂贵设备,单目方案生成超逼真3D头像,清华&IDEA新研究入选CVPR2025

然而,从易获取的单目视频中创建高度逼真且可动画化的头像仍然具较大的挑战性。为实现真实重光照,该方法将头像外观分解为反照率、粗糙度、菲涅尔反射等材质属性,并引入反照率伪先验以更好解耦材质信息,使用简化的BRDF物理模型进行着色。类似FLAME模型,采用可学习的线性形变基(Linear Blendshapes)建模几何位移,对每个高斯点引入三个可学习属性:形状基,表情基,姿态基。为解决上述问题,该方法提出HRAvatar,一种基于3D高斯点实现从单目视频到高质量、可重光照且可驱动的虚拟头像化身重建。

2025-05-22 22:29:54 34

转载 AI十周找到不治之症潜在新疗法,核心流程完全自主驱动

ROCK抑制剂诱导的吞噬作用中ABCA1的差异表达对干性AMD具有重要意义,ABCA1对维持RPE细胞健康功能至关重要,ABCA1促进胆固醇和磷脂从细胞膜向受体蛋白的主动转运,随后排出细胞。有网友指出,针对AMD,人们已经对ROCK抑制剂进行过研究,利用ROCK抑制剂增强干性AMD患者的细胞吞噬作用,这一研究内容也早有相关文献记载。重要的是,除实验室实际物理实验操作和最终手稿撰写外,论文形成所需的核心环节均由智能体完成,包括提出假设、实验设计、数据分析到迭代优化的全流程。

2025-05-22 22:29:54 71

转载 字节开源高精度文档解析大模型Dolphin:轻量高效,性能超GPT4.1、Mistral-OCR!

因为获取孤立的元素图像(例如表格、公式)及其标注比收集包含多种元素的完整文档页面更可行,Dolphin的元素解耦解析策略在数据收集方面提供了独特的优势。此外,凭借并行解析设计,Dolphin展示了显著的效率提升,达到了0.1729FPS,比最有效的基线(Mathpix,0.0944FPS)快近2倍。在公式识别方面,Dolphin在不同复杂度级别(SPE、SCE和CPE)上都展现出强大的能力,取得了与专业公式识别方法相当的具有竞争力的CDM分数。这里的文档元素值得是标题、图表、表格、脚注等。

2025-05-22 22:29:54 431

转载 雷军发布小米自研3nm芯片系列新品:首搭手机平板和手表,基带模块也亮相了

均光膜加持,发光均匀度提升65%。在玄戒家族当中,除了O1,小米还研发了小米4G基带玄戒T1,蜂窝通信全链路自主设计,支持4G eSIM独立通信,已在小米S4手表当中实际应用。核心方面,玄戒O1采用了10核4Cluster架构,与苹果一样采取了双超大核结构,包含了两颗Arm最新的X95超大核。GPU方面,玄戒O1采用了ARM最新的16核G925,曼哈顿测试可以跑到330帧,比A18 Pro提升43%。单核性能上,玄戒O1的跑分达到了3008,多核性能跑分达到了9509,多核评分超越了苹果A18 Pro。

2025-05-22 22:24:45 119

转载 首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,文化方面Qwen系列一马当先丨开源

现在,阿里国际的所有电商平台均已广泛应用AI能力,已服务了超50万卖家,形成了以服务中小企业出海为核心,覆盖全球多元市场、多种电商模式的规模级AI应用。这是首次针对行业的细分领域构建评测数据和评测方法,数据均来自行业细分领域真实数据,并利用语言专家在应用中的标注数据训练面向行业的打分模型。相应的,业内也对大模型翻译效果有了更高的要求,比如要符合不同地区的文化特性、能体现不同行业的语言特色等。最近启动的2026届校招中,阿里国际放出的岗位,80%是AI岗位,包括AI算法、研发、AI产品经理等。

2025-05-22 22:24:45 53

原创 一场对话,我们细扒了下文心大模型背后的技术

比如教育层面,根据贝哲斯报告的预测,到2029年,全球在线教育市场中,仅K-12教育的规模,就会达到8991.59亿元,年均复合增长率7.89%,在这之中大模型将扮演重要的推手角色。从多粒度知识融合学习、知识和数据融合学习,到知识增强、知识点增强,从检索增强、对话增强、逻辑推理增强,到慢思考、深度思考、多模态,模型的效果和效率不断提升,能力的边界也在持续地拓展。文心X1 Turbo,侧重深度思考,从X1升级而来,性能提升的同时,具备更先进的思维链,问答、创作、逻辑推理、工具调用和多模态能力进一步增强。

2025-05-22 20:34:55 1131

转载 AI也能当情感大师?腾讯发布最新AI社交智能榜单,最新版GPT-4o拿下第一

Arena 榜单与SAGE有明显差异——说明SAGE能够捕捉到Arena等通用基准无法完全体现的“高阶社会认知”能力,注意到“答得好”≠“更懂人心”。研究者先让Gemini2.5-Pro基于不同模型与感知智能体交互的对话,分析表达和模型成功失败的案例,建模模型不同的人格画像。当大模型在“IQ”上不断实现新的突破,“懂人心”、“解人意”开始成为实际应用中,人们对大模型新的要求。最终,大模型在这个互动中是否“真的懂人”,就通过智能体的“情绪轨迹”和“内心独白”体现出来。

2025-05-22 11:21:09 50

转载 24B模型编程超DeepSeek全家桶,32G内存苹果电脑就能跑,专门针对真实GitHub Issue训练

在包含500个真实GitHub Issue问题的SWE-Bench Verified基准测试中,Devstral不仅成为开源SOTA,还优于许多同等参数规模的闭源模型。据这位开发者分析,Devtral是Mistral-Small的微调,不清楚官方为什么把视觉编码器拿掉了,直接加回去就能使用了。合作方All Hands AI的口号是“少写代码,多做事“,他们没有开发自己的基础膜,而是专注于构建智能体框架。,重点在大型代码库中代码的上下文理解、识别不同组件间的关系,以及识别复杂函数中的细微错误。

2025-05-22 11:21:09 49

转载 奥特曼64亿美元联手强纳肾:OpenAI冲刺硬件iPhone时刻

LoveFrom这家公司秉承极简主义和创新精神,同样集结了很多苹果设计师,包括Bas Ording、Mike Matas和Chris Wilson等人,他们都在Mac和iPhone的产品外观和操作系统设计中颇有贡献。现在,OpenAI收购了Jony创办于2024年的公司io,但LoveFrom仍然保持独立运营,并以独立设计团队的身份继续为OpenAI提供设计服务。去年,它还收购了分析数据库公司Rockset。这家公司成立的时间不长,但还是很值得说道说道,因为它的成立一开始就是OpenAI的“精心谋划”。

2025-05-22 11:21:09 42

转载 全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用

我是个技术小白,我想从零做一个小游戏的微信小程序,要真正能够上线分享给其他人的,请问我应该一步步怎么做,给我写一个详细完整的攻略和教程,要具有实际可操作性,步骤要清晰,阅读起来不要太费劲。当然除了Prompt,也可以投喂资料或你的个人知识库内容,可以是图片、在线文档、网页、PDF。

2025-05-22 10:01:45 440

转载 12秒生成1万token!谷歌推出文本「扩散模型」Gemini Diffusion,研究员:演示都得降速看

对于基于自回归思想的模型来说,这是一个非常难的问题,例如,GPT-4o就无法解决此问题,因为它们必须严格自回归生成文本,无法跳过中间token,在生成答案之前对其进行推理。虽然Gemini Diffusion在生成速度上比迄今为止最快的模型还要快得多,但速度却不是它的唯一优势。研究员还通过举例说明,与仅限于一次生成一个token的自回归模型不同,扩散可以在生成过程中进行非因果推理。官方给出了Gemini Diffusion的基准测试结果,结果显示Gemini Diffusion的表现。

2025-05-21 18:39:32 81

转载 英伟达让机器人「做梦学习」,靠梦境实现真·从0泛化

开发从3个月锐减至36小时,作为英伟达开放、通用、完全可定制的类人推理和技能基础模型的首次更新,GR00T N1.5将部署在Jetson Thor上,预计于今年底推出。从机器人的人工智能大脑,到用于实践的模拟世界,再到用于训练基础模型的人工智能超级计算机,NVIDIA为机器人技术发展的每个阶段提供了基础模块。给定初始帧与语言指令后,生成描述预期行为的海量机器人视频序列,既包含微调后的已知行为,也包括未知场景中的新行为。通过DreamGen,团队实现仅凭单个环境中的单一拾取任务的遥操作数据,就能在。

2025-05-21 18:39:32 99

转载 AI视频生成告别默剧时代!谷歌Veo 3一步生成高质量音画大片,rap、电影、动画片都拿捏

提示词(中译版):一段20世纪80年代复古电视烹饪节目的视频,主持人是一位65岁左右的英国老太太。她正把面团放在面前的台面上擀着,说道:“现在,这得费点劲儿……”然后,面团变成了一张脸,抬头看着她,用布鲁克林口音说道:“嘿,女士,看着点。虽然这里的背景音乐不是由Veo 3生成的,但男主角的自白和各种音效确实有电影内味儿了。还在发布会现场,谷歌DeepMind CEO哈萨比斯就激动宣布:。而通过官方demo,我们也看到了Veo 3电影级的音视频能力:。使用首尾帧功能,他最终制作了下面这个1分钟左右的视频:。

2025-05-21 14:31:06 460

转载 何恺明等新作大道至简,瞬时速度改为平均速度,一步生成表现提升70%

从广义上讲,这项工作所考虑的情况与物理领域的多尺度模拟问题有关,这些问题可能涉及空间或时间上的一系列尺度、长度和分辨率。它在从零开始训练的ImageNet 256×256上通过1-NFE达到了3.43的FID,这一结果以50%到70%的相对优势明显优于同类中以前的先进方法。他们提出的模型是从头开始训练的,没有任何预训练、蒸馏或课程学习,最终实现了3.43的FID值,明显优于之前最先进的一步扩散/流模型。虽然一步采样是这项工作的重点,但团队要强调的是,根据下面的公式,几步采样也是很简单的。

2025-05-21 14:31:06 36

转载 纯靠“脑补”图像,大模型推理准确率狂飙80%丨剑桥谷歌新研究

验证了纯视觉推理的可行性,通过研究团队提出的新范式VPRL框架,可以在视觉导航任务中实现超越文本模型的推理性能,并展现出极强的泛化能力,推动多模态推理在未来朝着更直观的图像化方向发展。当你和大模型一起玩超级玛丽时,复杂环境下你会根据画面在脑海里自动规划步骤,但LLMs还需要先转成文字攻略一格格按照指令移动,效率又低、信息也可能会丢失,那难道就没有一个可以跳过。而SFT用一个预期动作序列的文本描述取代中间视觉结果。在视觉规划框架中,核心挑战始终在于生成的视觉状态能否正确反映规划动作的意图,因此需要通过。

2025-05-21 12:01:46 128

转载 ChatGPT转型计划曝光!不再只是回答问题,而是通过穿插使用工具变身行动助手

比如,你想要AI帮你查询信息并通过图表的形式反馈,首先,Agent会先通过搜索工具获取大量的数据,然后通过编程工具编写一个小的Python程序用于绘制图像,那么就需要知道编写程序的知识,这时候它就会继续搜索关于编程的信息进行推理,然后继续完成代码编写。关于情报安全性的问题,Kevin Weil表示在训练模型过程中,一方面是用更科学的方式进行,另一方面是推理模型会用不同的方式仔细检查它们的答案,因为现在它们可以使用工具,他也可以搜索网络,这样就会减少幻觉。来提升模型的性能,虽然这种方法很有效,但非常昂贵;

2025-05-21 12:01:46 31

原创 搜索SEO被AI重塑,专业内容社区价值凸显 | 量子位智库报告

另一方面,值得关注的是,像知乎这样的专业内容社区,能在专业知识话题的问答引源中占比达到35.3%,其背后的专家经验、真人交流,价值比以往更加凸显。最后,要将信息整合为结构化的回答,每个要点要详细展开,保持内容连贯,并提供具体的策略和方法,这对信息的质量提出了更高的要求。搜索不再是信息门户的“天下”,有接近一半的AI回答引源自内容社区,尤其在专业话题中,内容社区的被引权重更高,超过60%。即便如此,在社会热点问题中,依然有超过30%的回答引源自社区平台,反映了内容社区对热点事件的实时讨论能力。

2025-05-21 12:01:46 843

原创 企业把AI用起来,真的不是接入个DeepSeek就完事了

总而言之,不管是管理层用来查询项目进展、综合获取业务建议,还是员工询问日常工作流程、总结周报日报,所有的工作业务问题,「你来问它来答」,就这么简单。很多企业担心知识泄露,但飞书有天然的权限控制系统,就像一道安全防火墙:谁能问什么、能看到多少,都会严格遵守组织权限,不会有越权窥探资料的情况出现。允许的权责范围内,都能被AI读取和理解,从而让零散资料形成飞书知识问答中,可调度的知识图谱。可以想见,因为大厂跨部门工作频繁,协作痕迹和资料都更齐全,同一个问题丢给飞书知识问答,得到的答案会更全面、更精准。

2025-05-21 12:01:46 962

转载 瘦身不降智!大模型训推效率提升30%,京东大模型开发计算研究登Nature旗下期刊

通过平台模型加速工具优化,节约90%的推理成本。京东大模型开发计算技术,能支持企业的模型开发训练及生产,让庞大、重型的AI模型“瘦身”成精悍的小模型,精华依旧,效率大增,瘦身不降智。:采用动态分层蒸馏技术,特别是在预训练阶段进行蒸馏,调整仅0.5%的参数实现低资源场景下的高效训练,减少大型模型的部署成本。这套京东沉淀下来的大模型开发计算的技术,支撑了JoyBuild大模型开发计算平台,广泛服务行业用户。京东丰富的业务场景,还为平台上的基础大模型提供具体的行业应用场景,加速基于大模型的商业化落地。

2025-05-21 12:01:46 58

转载 谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

只需在任意商品页面点击“跟踪价格”,设置尺寸、颜色和预算金额等,当价格下跌时,用户会收到通知,确认购买细节后点击“代我购买”,系统就会自动将商品加入购物车,并通过Google Pay安全完成结账。还有Agent能力,用户想买音乐会门票,只需说一句话,AI Mode就会跨平台搜罗各大网站的票务信息,锁定最优选项,填好订单信息。谷歌最新图像生成模型Imagen 4则兼具速度与精度,速度比上一代快10倍,生成的图像在精细细节上表现惊人,从复杂织物、水滴到动物皮毛均清晰逼真,同时擅长写实与抽象风格。

2025-05-21 04:33:26 113

转载 MIT爆火论文被曝数据造假!曾验证AI辅助科研增速44%,诺奖得主都被诓了

AI的影响具有异质性,高能力科学家的产出增长81%,而底层三分之一科学家受益甚微,通过任务分解发现,判断能力(而非创意生成能力)是异质性的主因。且AI生成的材料在化学结构上更独特,专利中引入更多新技术术语,产品原型中全新产品线的比例提高,表明AI推动了更激进的创新,而非渐进式改进。原来早在今年2月初,MIT纪律委员会就收到了的针对该论文某些方面的指控,随即启动秘密内部审查。我们希望澄清事实,并表明我们的观点:当前在学术或公共讨论中,不应采信该论文所报告的研究结论。

2025-05-21 04:33:26 53

转载 陶哲轩“喂饭级”AI教程来了!只用GitHub Copilot证明函数极限问题

其二,在处理绝对值不等式时,Copilot错误地使用了add_lt_add方法,这个方法要求两边都是严格不等式,但实际情况中有一个等式。陶尝试让Copilot修正这个问题,但它给出的解决方案并不理想。据陶哲轩介绍,他此前主要将GitHub Copilot用于一些“花里胡哨”的代码补全,但实际情况是,如果想让它来证明数学定理,往往需要人类的“正确指挥”。与此同时,在最终证明的以下几个关键步骤中,虽然Copilot在整体框架上提供了很大帮助,但在处理这些精细的数学细节时,还是需要人工干预来确保准确性。

2025-05-20 15:44:14 49

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除