自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3971)
  • 收藏
  • 关注

转载 中国高校屠榜2026 CSRankings!上交清华并列第一,北大AI封神

就教职论文数量来看,北大有13人论文总数超10篇,最多的19篇是Zhang Shanghang,此外还有张铭(15)、杨耀东(14)、卢宗青(13)、周嘉欢(13)。有5人发表超20篇论文,赵洲(27)、吴飞(24)、杨易(21)、宋明黎(21)、陈华钧(20)。而在榜单的后半程,中大、港中文(深圳)、成电、北邮、北航、华科大、南科大、深大、武大、西交、厦大、西电也悉数入围。值得注意的是,成电、中大、武大、港中文(深圳)、北航、北邮、深大、厦大、天大及西电也凭借在AI方向的深耕,成功跻身。

2026-01-14 11:00:39 2

转载 中国最佳CEO排行榜,马化腾第一

在国内,鹅厂的福利待遇和员工关怀确实不错,据说,每一位入职腾讯的新员工,都能领到一副“福利扑克”,一共54张牌,每一张代表一种福利。鹅厂员工工资高、年终奖高、涨薪、发股票、发红包、免费三餐、员工班车、带薪假、购房免息贷款......

2026-01-13 22:03:46 7

转载 AI大神,爆火神经网络架构KAN一作:刘子鸣回国任教

来源:量子位爆火神经网络架构KAN一作,毕业新去向已获清华官网认证:刘子鸣,拟于今年9月加入清华大学人工智能学院,任助理教授。KAN的初版论文发表于2024年4月,一经发布,即以优于多层感知机(MLP)的准确性和可解释性,成为当时的学术界热议话题。其GitHub仓库,在短短两三天内就收获了1.1k星星。正如论文中所提到,大家关注的重点在于:KANs是MLPs的有力替代方案,为进一步改进目前重度依赖MLPs的深度学习模型提供了新的契机。刘子鸣的这一教职其实早前就已敲定。从他本人在2025年5月发布的招生文章来

2026-01-13 13:00:46 4

转载 这些改变世界的产品,最初只是个“支线任务”?

某次和产品经理交流后,Cherny意识到,或许可以给终端来点和系统文件交互的工具,比如读文件、写文件,还有运行批处理命令什么的。作为成熟的老牌互联网公司,阿里早期在大模型上的战略定位更多的还是面向行业ToB用户,大模型的商业化交付才是绝对主线。在过去的三十天里,我提交了259个PR——497次提交,添加了40000行代码,删除了38000行代码。简单来说,在Qwen的早期发展中,阿里不是完全不管,也不是严加看管,而是找到了一条折中的道路。一年前,Claude在生成bash命令时难以避免转义错误。

2026-01-12 21:43:04 3

转载 董事长稚晖君发新产品了,有遥遥领先那味了!

在个人交互场景中,启元Q1接入启元灵心平台,支持自然语言对话、知识问答、英语教学和动作示范,并通过柔性阻抗控制,让人机交互更接近“可长期共处”的状态。这些产品在保持科研与开发属性的同时,更加关注体积、价格、耐用性和可玩性,而这,也意味着具身智能正从“实验工具”,逐步走向“可使用的产品”。其中醒目的1.88,既不是身高,也不是售价,而是启元Q1的体积(立方米)——一个被压缩到背包级的人形机器人尺寸。这次启元Q1的发布,可以被视为稚晖君此前探索的“机器人即服务(RaaS)”路径,在个人机器人市场上的一次延伸。

2026-01-11 13:00:33 9

转载 OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

尽管我要离开OpenAl去尝试探索一些在OpenAl难以开展的研究领域,但这是一家特殊的公司,也是世界上一个特殊的存在,它已然在人类历史的长河中占据了永恒的位置。截至今日,Jerry在各种公开演讲和访谈中,多次强调对“推理”而不仅仅是“模式匹配式生成”的重视,倾向把大模型看作可以通过训练“学会思考过程”的系统,而不仅是一个黑盒文本预测器。我参与了GPT-4和ChatGPT的开发工作,最近还组建了一个团队,建立了一个新的缩放训练和推理计算范式——现在,它通常被称之为推理模型。我非常享受在这里工作的日子。

2026-01-09 13:00:49 30

转载 这里还有8个“Manus”:1亿美元ARR

成立于2022年,虽然并未对外披露1亿美元ARR的具体时间点,但在今年9月宣布启动1亿美元的员工股权回购计划时,正式宣布ARR已超过2亿美元,并预计年底前达到3亿美元。Lovable则是在2023年正式成立,并在今年7月正式宣布ARR破1亿,随后又在11月更新了这一数据,来到了2亿美元ARR,成为增长最快的AI编程工具之一。Meta有平台,有更强的触达能力还有更高效的流量组织。从Meta的视角出发,我自己在消费级AI产品上没有一个拿得出手的爆款,现在有一个经历过市场验证的Manus摆在我面前,价钱还不贵。

2026-01-08 13:00:37 15

转载 梁文峰署名,十年首次重大升级!DeepSeek新成果

在27B参数的MoE模型上,mHC展现出稳定的训练曲线,最终损失相比基线降低了0.021,同时保持了与baseline相当的梯度范数稳定性。实验数据显示,这个近似解已经足够有效:在27B模型中,mHC的复合映射信号增益最大值约为1.6,与HC的3000形成了三个数量级的差距。DeepSeek团队的实验表明,在这三个映射中,负责残差流内部信息交换的Hres矩阵贡献了最显著的性能提升。论文提到,内部的大规模训练实验进一步证实了这些结论,且当扩展率n=4时,mHC仅引入6.7%的额外时间开销。

2026-01-07 22:25:42 46

转载 全球第一「AI妖股」!狂飙550倍

在收购并将「G.D. Trading and Agencies」贸易与中介公司更名为「RRP Semiconductor」后,Chodankar现计划将其与RRP电子公司合并,借前者炒作的热度为后者背书。一位熟悉情况的BSE人士透露,交易所在最初处理配股事项时存在「内部疏漏」,目前可能会寻求SEBI指导,在上诉结果出炉前,,大量散户迫切寻找任何「芯片」「AI」的对标上市企业,这种饥渴情绪,给了RRP半导体这样的公司巨大想象空间。在2024年9月,RRP Electronics位于新孟买的新工厂举行活动。

2025-12-31 13:00:22 52

转载 同事猝死只换来1分钟默哀!40岁架构师直言,年薪百万活得像机器

不是学不会,而是更费时间、更吃力。后来,他的职业路越走越顺,从程序员升成小组的Tech Lead,再到做架构师,最后走上了高阶技术管理岗。如果人生是一场项目,最该上线的产品,从来不是某个没人记得的系统,而是那些被你差点错过的、不可回滚的日子。你想想,这些最珍贵的家庭时光,都被工作给吞噬了,而我们用这些时间换来的,可能只是个没人记得的项目……IT这行很卷,工作强度大,而且因为团队分布在全球各地,意味着他经常凌晨爬起来开会,晚上加班到深夜。他忽然身体不适,心脏出了问题,送进医院后,很快就传来噩耗——他走了。

2025-12-30 13:00:43 24

转载 王源,担任211大学副校长

设有信息与通信工程学院、电子工程学院、计算机学院(国家示范性软件学院)、网络空间安全学院、人工智能学院、智能工程与自动化学院、集成电路学院、经济管理学院、数学科学学院、物理科学与技术学院、未来学院、卓越工程师学院、人文学院、数字媒体与设计艺术学院、马克思主义学院、国际学院、应急管理学院、网络教育学院(继续教育学院)、玛丽女王海南学院、体育部、国际教育中心等。目前,他任北京邮电大学党委常委、副校长,分管北京邮电大学本科生教育、研究生教育、教材建设等方面工作。,理学博士,中共党员,教授,博士生导师。

2025-12-29 13:01:07 46

转载 什么?特斯拉通过了「物理图灵测试」!圣诞狂欢。。

需要注意的是,特斯拉也强调,单车的实际驾驶行为仍会受到车主画像的显著影响。虽然FSD v14.2.2这次的更新,表面还是一次基于FSDv14版本的微调,但配上老马高强度推特宣发的佐料,剑指Waymo的意图已经非常明显了。但可以确定的是,随着技术不断成熟,汽车是否具备「自动驾驶」能力,不再仅仅从一项锦上添花的附加功能,而是会在真正左右消费者的购车决策。不过,随着FSD能力的持续提升,以及Waymo在旧金山大停电事件中的失误被放大讨论,特斯拉在舆论和用户层面的关注度正在明显上升。

2025-12-28 13:00:35 37

转载 实习工资月薪12.8万!惊呆了。。。。

Research Scientist Intern是一个12周到24周的研究型实习,研究方向覆盖NLP、生成模型、CV等核心领域,月薪大概在7650美元到12000美元之间,据说还有更高的。不光是字节这么大手笔,近几年,阿里云、腾讯、百度等在实习生和学生研究员层面的项目规模持续扩张,覆盖方向也从传统工程岗位,逐渐延伸到基础模型、系统架构、算法研究等更偏研究型的领域。Anyway,对于有明确研究背景的候选人来说,不管从薪酬来看还是从倾斜的资源来看,以上这类项目都绝对足以等同于和一份AI领域的正式工作。

2025-12-27 13:00:35 20

转载 离职前的吐槽太猛了,LeCun真啥都不藏了

他曾发表过一篇关于训练多层网络的目标传播算法论文,那时他就衍生想到了反向传播的核心思路,但受时间和精力限制没能做成,后来David Rumelhart和Hinton发表了相关论文,并引用了LeCun的论文。这就是“梯度消失”问题。甚至在很多任务上,其实动物比人类更擅长,而人类之所以自诩为“通用”,只是因为人类自认为能处理所有可以想象到的问题,但很多想象之外的问题,人类其实无法做到。所以LeCun的观点是,单靠LLM或者单靠世界模型是无法实现真正的人类智能的,这需要很多的相关研究支撑,也需要很多时间完成。

2025-12-26 13:00:51 17

转载 饶毅:应该给我国30到55岁的中青年科学家涨薪

因此,研究工作继续很好的老年科学家可以在改革成功的单位发挥余热,而研究下坡路的老年科学家不能在改革已经完成的单位,应该去改革尚未完成、需要他们出力、而且他们敢于出力的地方(包括新建但还在举步维艰中的)。研究不行了,所谓pedestrian,还自私自利,不支持年轻人,而是回中国来在条件优越的单位、高待遇、阔条件,给自己养老享福,甚至让徒子徒孙拉帮结派。对于单位来说,任何条件优越的单位引进老年不积极研究的科学家,都是为了单位的虚荣而虐待国家,头衔不是贡献、资历不是贡献,优秀的科学、艰苦的改革才是。

2025-12-25 13:00:49 16

转载 中国真正的L4只有3家

文远知行在2021年的时候,在和宇通合作的小巴上实现了Driver out(去安全员),接着在Robotaxi实现Driver out,到目前为止搞了三年多的Driver out,接驳乘客超过50万名了,没有什么重大的责任事故,这些方面都是非常好的成绩。

2025-12-24 13:00:42 22

转载 一战成名!谷歌AI逆袭背后的头号功臣

2025 年行将结束之际,谷歌凭借在AI领域的一连串突破重新焕发了生机:从 Gemini 3 模型的横空出世,到一个又一个「现象级」应用的推出,整个公司一扫年初的低迷,士气高涨。为此,Woodward在Google Labs内部设立了一个特别机制,员工如果遇到体制上的「绊脚石」可以提交一个代号为「Block」的工单,由专门团队迅速协调资源排障。这种理念也贯穿在他之后负责的AI产品中——无论是 NotebookLM 还是 Gemini,他始终强调的是为用户创造真正有用的价值,而不仅是炫技式的噱头。

2025-12-23 13:00:22 80

转载 1 天净赚 9.6 亿,字节全员涨薪。。。

与此同时,薪酬发放将提高现金占比,减少期权/RSU占比,总包类期权/RSU发放将从1次发4年(每年归属节奏为20%-25%-25%-30%),改为1次发3年(每年归属节奏为30%-30%-40%)。对于激励月数超过3个月的部分,发放形式将从100%发绩效期权/RSU改为25%发现金,75%发绩效期权/RSU(归属节奏不变,两者均按月匀速归属)。,其中发放的现金占比将提高,总包类期权将从1次发4年(20%-25%-25%-30%),调整为1次发3年(30%-30%-40%)。从”L1”到”L10”,共十级。

2025-12-22 12:02:58 254

转载 零的突破!苏州大学新入职青椒,发表该校125年来首篇数学四大顶刊,破解领域40年难题

1926年由辛钦证明的定理(称为辛钦定理)是丢番图逼近领域的一个基本定理,其刻画了勒贝格测度意义下被有理数以给定速率逼近的无理数的集合大小。自辛钦定理建立以来,推广辛钦定理的研究吸引了众多数学家,包括至少两位菲尔茨奖得主。著名数论学家Kurt Mahler在1984年提出三分康托集上丢番图逼近的研究问题,启发了数学界之后数十年将辛钦定理推广至自相似分形上的研究工作。这项工作结合了分形几何的工具、随机游走理论以及齐性空间动力系统理论,通过建立特殊齐性空间上的分形轨道有效等分布定理完成了对辛钦定理的推广。

2025-12-19 13:00:57 77

转载 姚顺雨加入腾讯,担任首席AI科学家,直接向总裁汇报

腾讯表示,作为腾讯大模型体系的重要一环,AI Infra 部将负责大模型训练和推理平台技术能力建设,聚焦大模型分布式训练、高性能推理服务等核心技术能力,构建大模型 AI Infra 核心竞争力,为大模型算法研发和业务场景落地提供稳定高效的技术支持和服务。刚刚,腾讯升级大模型研发架构,新成立 AI Infra 部、AI Data 部、数据计算平台部,全面强化其大模型的研发体系与核心能力。同时兼任 AI Infra 部、大语言模型部负责人,向技术工程事业群总裁卢山汇报。长按识别,邀请您进群!

2025-12-18 10:00:26 86

转载 谷歌TPU杀疯了,产能暴涨120%、性能4倍吊打,英伟达开始慌了!!!

扩展 TPU(最多可达 4096 个芯片)需要 Google Cloud 的投入,而本地部署的 TPU 市场尚处于起步阶段,混合架构将会持续存在:Nvidia 用于训练的极端情况,TPU 用于推理的大规模应用。科技远见家彼得・蒂尔 (Peter Thiel) 旗下的对冲基金 Thiel Macro LLC 在 2025 年第三季度抛售了其持有的全部 537742 股英伟达股票(截至 9 月底,价值约 1 亿美元),并将所得资金重新投资于苹果和微软等更具防御性的股票,以应对日益增长的人工智能泡沫破裂的担忧。

2025-12-17 13:01:16 87

转载 谷歌创始人布林:当年发完Transformer论文,我们太不当回事了

但现在我们从斯坦福和其他顶级项目招的人,数学和计算机都很强,还有很多物理学家,因为物理学家必须做高深数学,而且他们的很多工作受限于计算能力,所以他们也需要计算技能。此外,还有生物与健康领域 —— 尤其是分子科学层面的机会非常多,正在发生一场不小的革命,只是它们目前得到的关注度,明显不如 AI。当然,湾区是个特殊的地方。在这样的时间尺度下,学术研究是非常合理的:你有足够的自由,可以慢慢思考、申请经费、反复试验,一个问题可以研究二三十年,最后才慢慢「渗透」到产业里,可能是被大公司吸收,也可能变成一家创业公司。

2025-12-16 13:00:33 20

转载 美国国家发明家科学院2025院士公布!

Shang-Hua Teng博士曾两次获得理论计算机科学领域极具声望的哥德尔奖(Gödel Prize),他曾在微软研究院(Microsoft Research)、Akamai、IBM Almaden研究中心、英特尔公司、施乐帕洛阿尔托研究中心(Xerox PARC)以及NASA Ames研究中心工作并担任顾问,并因其在编译器优化、互联网技术和社交网络方面的研究获得了十余项专利。Luna教授现任普渡大学产业合作副校长,同时担任莱尔斯土木工程学院Reilly冠名教授,并兼任材料工程学院教授;

2025-12-15 09:00:50 66

转载 英伟达终结者,CUDA「护城河」被攻破了?

而此次CUDA Tile之前,早在2006年,英伟达发布了G80架构和CUDA,CUDA的出现将这些并行的计算单元抽象为通用的线程(Threads),从而开启了通用GPU计算(GPGPU)的黄金时代。综上所述,英伟达并没有拆除护城河,而是将护城河的墙修得更漂亮、更易于攀爬(进入),但在墙内构建了更舒适的迷宫(Tile IR生态),使得用户更不愿意离开。二十年来,基于「单指令多线程」(SIMT,Single Instruction,Multiple Threads)的编程模型一直是GPU计算的「圣经」。

2025-12-12 13:00:58 42

转载 最惨打工人:工作15年,被大厂裁4次了

的确比在微软有挑战性了很多,但好像有点太有挑战性了:刚进Meta的大门,工牌还没戴习惯,部门的产品规划就出了大纰漏,把整个团队折腾得鸡飞狗跳。然而随着AI的出现,同行开始疯狂抬package挖墙角,「消失术」每天都在老李身边上演——昨天同事还在对面喝咖啡,今天工位就干干净净了。,直接线下复用「公域获客→私域转化」的打法,还卖起了「可能提升牌运」的麻将周边,搞麻将比赛、做社群,生生把实体生意做成了互联网产品。,也能玩得很互联网——除了包子本身,还卖酒、做包子文创,把店铺打造成年轻人的「线下社交广场」。

2025-12-11 13:00:25 46

转载 苹果帝国「九子夺嫡」争夺CEO大战开始了

从 2008 年加入苹果开始,他一手搭建了 Apple Silicon 团队,从 A4 芯片的牛刀小试,到 A 系列芯片在移动端的独孤求败,再到 M 系列芯片让 Mac 浴火重生,彻底摆脱 Intel 的掣肘,斯鲁吉是苹果万亿市值的护城河挖掘者。从定义了 iPhone 触感的设计师,到掌控着全球数亿台设备算力命脉的芯片造物主,再到试图在生成式 AI 浪潮中突围的算法专家,离职名单上的每一个名字,都足以让竞争对手的猎头在深夜兴奋得失眠。即便是执行 RTO 的 Meta,其文化也相对灵活。

2025-12-10 09:01:01 71

转载 何恺明团队新成果发布,清华姚班大二学生是共同一作

在ImageNet 256x256基准测试中,iMF-XL/2模型在 1-NFE(单步函数评估)中取得了1.72的FID成绩,相较于原始MF提升了50%,证明了从头开始训练的单步生成模型可以达到与多步扩散模型相媲美的结果。具体来说,iMF让用于计算复合预测函数V(代表对瞬时速度的预测)中,雅可比向量积(JVP)项所需的切向量输入不再是外部的e-x,而是由网络自身预测的边缘速度。最终,iMF 成功将训练流程转换成了一个稳定的、标准的回归问题,为平均速度的学习提供了坚实的优化基础。

2025-12-09 13:00:44 39

转载 潘建伟院士,获千万元大奖!

潘建伟主要从事量子光学、量子信息和量子力学基础问题检验等方面的研究,其研究成果多次入选两院院士评选的“中国年度十大科技进展新闻”,英国《自然》杂志、美国《科学》杂志评选的年度十大科技进展,美国或英国物理学会评选的年度物理学重大进展。曾获求是杰出科学家奖,何梁何利科学与技术成就奖,国家自然科学奖一等奖,未来科学大奖物质科学奖,欧洲物理学会菲涅尔奖,国际量子通信、测量与计算学会国际量子奖,美国光学学会伍德奖,墨子量子奖以及德国蔡司研究奖等国内外学术荣誉。在量子通信研究方面,在量子计算研究方面,

2025-12-08 13:01:11 165

转载 祝贺!上海交大,IEEE Fellow+2!

IEEE Fellow,即国际性的电子技术与信息科学工程师学会会士,是IEEE最高级别成员,也是IEEE授予成员的最高荣誉,在学术科技界被认定为权威的荣誉和重要的职业成就;孔令和,上海交通大学计算机学院特聘教授、博导,国家级高层次人才计划获得者,IEEE Fellow。近日,美国电子电气工程师学会(Institute of Electrical and Electronic Engineers,IEEE)发布了新一届IEEE Fellow名单,欢迎大家加入DLer-长按识别,邀请您进群!

2025-12-07 15:04:56 47

转载 全球首个具身智能本科专业!上交联手华为

当前学术界和产业界都在紧锣密鼓投入相关资源,例如包括斯坦福、MIT等欧美高校和研究机构都在增设具身智能实验室,谷歌、特斯拉等科技巨头也纷纷下场具身智能应用。与北大联合建设实验室,该实验室将借助智平方在机器人产业化落地的技术积淀,以及北大的科研能力,携手突破4D世界模型、端到端智能体等具身智能相关的前沿技术难题。也在今年新增机器人工程专业,依托工程科学学院、人形机器人研究院的学科优势,设立智能制造与具身智能双轨培养体系。所以说,既有学术底蕴又有产业成果的上海交大首办具身智能专业,完全是意料之内、情理之中。

2025-12-05 13:00:46 136

转载 33岁稚晖君,上市公司董事长!

值得一提的是,在不久前,稚晖君还入选工信部公示的人形机器人标准化技术委员会委员名单,担任副主任委员,同时入选的还有宇树科技的创始人、CEO。,通过其与核心团队共同设立的持股平台,以 “协议转让 + 要约收购” 的组合模式,历时4个月完成对上纬新材的收购,总成本约21亿元。实际上,关于智元“以下犯上”以创业公司身份并购上市公司,并非完全没有争议,智元对上纬新材的收购,一定会被载入商业发展史。此外,彭志辉、姜青松、钮嘉均同时任职于智元创新(上海)科技有限公司,仅在公司担任董事职务,不兼任其他行政职务。

2025-12-04 13:00:49 65

转载 终结OpenAI垄断的11人

他从彭博社的一名科技记者起家,写出了著名的Import AI通讯,最终转型为OpenAI的政策总监并随后联合创立了Anthropic。在Anthropic,她是那个能让理想主义落地的人,直接管理着包括CTO在内的核心高管,确保这家公司的骨架不会被飞速增长的肌肉压垮。Daniela有着极罕见的履历:从政治竞选的泥潭中摸爬滚打,转型为Stripe的风控经理,再到OpenAI的安全副总裁。作为约翰霍普金斯大学的教授,他用量子场论的思维去解构神经网络,为公司确立了长期的科研航向。

2025-12-03 13:00:51 37

转载 NeurIPS 2025最佳论文开奖!何恺明、孙剑等十年经典之作夺奖

作者:Zihan Qiu, Zekun Wang, Bo Zheng, Zeyu Huang, Kaiyue Wen, Songlin Yang, Rui Men, Le Yu, Fei Huang, Suozhi Huang, Dayiheng Liu, Jingren Zhou, Junyang Lin。覆盖率与困惑度分析表明,RLVR生成的推理路径原本已存在于基座模型的采样分布中,说明当前RL训练并未诱发全新的推理模式,且随着训练推进,模型的推理空间常被收窄。该奖项旨在表彰十年前发表的论文。

2025-12-02 13:01:05 132

原创 大模型量化技术原理&总结

增量量化的兼容性差:大模型常需 “增量训练”(如在原有模型基础上新增任务微调),但量化后的模型参数(如 INT4 权重)反向传播时精度不足,需先将量化权重反量化为 FP32 再训练,导致增量训练的内存 / 计算成本与原模型训练几乎无异,失去量化意义。:多模态模型中,不同模态的特征需通过 “跨模态注意力”“模态融合层” 交互,量化会破坏模态间的特征对齐 —— 例如文本特征(4bit 量化)与图像特征(8bit 量化)融合时,因精度差异导致对齐偏差,无法正确关联 “文本描述” 与 “图像内容”。

2025-12-01 21:04:23 756

转载 韦东奕,已晋升北大副教授

该文所创立与发展的研究框架与研究方法,不仅解决了调和分析与几何测度论中这一重大难题,同时对解决不同数学领域的公开问题具有深远的影响。2025年9月22日,科技部官网发布《国家科学技术奖励工作办公室公告第103号》,刚刚获评北大副教授的韦东奕,与章志飞一起作为主要完成人的项目《流动转捩机理的数学研究》,已通过2025年度国家自然科学奖初评,初评建议等级为二等奖。据北京大学北京国际数学研究中心11月25日消息,近期,在北京国际数学研究中心,由田刚院士倡议,王虹正在讲座,韦东奕坐前排旁听。欢迎大家加入DLer-

2025-12-01 13:01:07 66

原创 MOE架构原理& Transformer 层代码实现

尽管计算量低,但 MoE 需存储所有专家的参数(如 128 个专家的显存需求是 Dense 的 128 倍),即使通过专家并行拆分到多卡,仍需数十甚至上百张 GPU 支持(如训练 1T 参数 MoE 需至少 16 张 A100 80GB GPU)。MoE 的计算量仅与 “激活的专家数”相关,与总专家数无关 —— 即使将专家数从 2 增加到 4,计算仍保持接近(仅增加门控网络的微小开销),但参数量可扩展到 Dense 的 10 倍以上.,而 Attention 层保持不变。

2025-12-01 00:17:51 710

转载 Claude Opus 4.5编程世界第一,把谷歌OpenAI踢下王座

尽管该基准测试判定此结果为「失败」(因为Claude的方式超出了预期),但这种创造性的解决问题能力正是测试者和客户所津津乐道的——这也是Claude Opus 4.5让人感觉迈出实质性一步的原因。当前的挑战在于,JSON Schema擅长定义结构——类型、必填字段、允许的枚举值——但它无法表达使用模式:何时包含可选参数,哪些组合有意义,或者API期望什么样的惯例。基准测试中,Opus 4.5的编码、工具调用、计算机使用的成绩刷新SOTA,比Sonnet 4.5、Opus 4.1领先一大截。

2025-11-30 12:02:13 76

转载 2位斯坦福顶流博士,入局具身智能,获一众大佬站台

需要提醒的是,硅谷最初是从70年代的“低利润、高资本支出”硅产业起步的,这才造就了今天高利润、无限可扩展的软件生态系统。此外,赵子豪提到,Sunday产品的目标是在 “可爱” 与 “实用” 之间找到平衡点,这个白色脸庞红色帽子的设计还颇有点园丁,邮差的气质。可以说,这两位联创凭借强大的技术能力,已将硬件、数据、算法大脑的全链路牢牢掌握,而斯坦福系在具身智能领域的人脉与资源之雄厚,更是无需多言。比如,在卡帕西等大佬站台的图片中,就有一个被打了马赛克的大家伙,而这很有可能是即将揭晓的人形硬件。

2025-11-28 13:00:27 47

转载 2025 互联网大厂职级与薪资对照表!

同样是高级工程师,在阿里是 P6,在字节是 2-1,在百度可能是 T5。顶级专家(P9/T8/4-1)则在 300 万或更高。入门级(P5/T4/2-1)年薪约在 40 万左右。专家级(P8/T7/3-1)集中在 150 万上下。P8 高级专家 / 资深经理:170-240 万。中层(P7/T6/2-2)通常能突破 100 万。P9 资深专家 / 总监:290-380 万。3-1 高级专家:144-205 万。3-2 资深专家:250-300 万。4-1 专家主管:387-590 万。

2025-11-27 13:00:51 1374

转载 MIT经济学博士生,用AI骗过了诺奖导师、Nature、美国国会

在这篇论文里,Aidan讲述了一个吸引力极大的故事:他拿到了一家大型材料科学公司的独家数据,追踪了1018名科学家。故事的主角名叫Aidan Toner-Rodgers,几个月前,他是MIT经济系最耀眼的「神童」,站在诺贝尔奖得主身侧,仿佛已经握住了通往未来的钥匙;有人翻出了另一篇关于「药物研发」的旧论文,惊讶地发现,Aidan论文里的数据分布图,竟然和那篇药物论文里的图表惊人地相似。哪怕到了这一刻,他承认了「不诚实」,却依然试图把这描述为一种「为了保住研究成果的无奈之举」,而不是彻头彻尾的虚构。

2025-11-26 09:00:20 108

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除