- 博客(2732)
- 资源 (5)
- 收藏
- 关注

原创 Datawhale团队第三期录取名单!
Datawhale团队公示:Datawhale 组织成员Datawhale已经成立一年半了,从一开始的12个人,学习互助,到提议建立开源组织,做更多开源的事情,帮助更多学习者,也促进...
2020-09-23 21:17:58
2677
转载 重识大模型法则:读懂最火上下文工程
其实,关注笔者本人博客的读者应该知道,除了提示词,还有几个很火的东西也基本没涉及过,一个是RAG,一个是ToolCall、还有Agent,以及前不久火的一塌糊涂的MCP。至于MCP,我其实接触的比较早(比较关注LLM之间的通信协议),当时还没有那么火,看了后感觉想法确实很好,但其实和算法也是关系不太大的。现在回想起来,自己一直以来的感觉是没问题的,无论是提示词、RAG、ToolCall还是Agent、MCP,它们其实都是偏应用层面的东西,当然不是说它不是算法,至少它们都是以LLM为核心的。
2025-09-07 21:10:46
12
原创 9月12日,AI智能眼镜论坛门票
构建起一个无缝融合物理与数字世界的新枢纽,为跨终端设备与AI智能体的协同拓展出无限可能。AI眼镜已成为手机等多终端的天然延伸,承载多元化服务,理查德·萨顿(Richard Sutton),源码资本投资合伙人、美国国家工程院外籍院士。在AI浪潮推动下,智能眼镜正迎来爆发式增长。包括2024年图灵奖得主、“强化学习之父”,宇树科技创始人兼首席执行官。凭借独特的“第一视角”优势,从“看见”迈向“可信连接”。2025外滩大会,文末申请。外滩大会·AI眼镜论坛。、“人类简史系列”作者。「限时免费」专业门票。
2025-09-06 22:05:13
214
转载 9月12日,大会论坛门票:《Data meets AI:智能时代的双引擎》
论坛聚焦大模型背后的“数据根基”与“基座重构”两大议题,汇聚业界权威专家与产业领袖,不仅展示大模型和数据技术的前沿探索,更通过学界与产业的深度对话,把人工智能时代最核心的底层逻辑和未来演进路径清晰展开。从数据科学到模型进化,从基础架构到新范式的重构,嘉宾将带来一系列既具前瞻性又紧贴实践的思考,帮助大家理解在智能时代“数据+AI”双引擎如何驱动创新与增长。理查德·萨顿(Richard Sutton)论坛将于上海外滩大会盛大启幕。2025外滩大会,文末申请。上海市图像图形学学会。「限时免费」专业门票。
2025-09-06 19:53:03
59
转载 Datawhale携手上海高金金融研究院,在模速空间发布,共建AI+金融生态
9月6日,FINxTECH生态平台发布会暨系列公开课重磅开启!特邀众多一线大咖,分享AI大数据挖掘、AI智能体构建、AI+金融应用实践等硬核内容。聚焦实战,落地为王。无论你是技术极客还是金融从业者,这期公开课都将为你打开AI赋能金融的新视野。联合方:上海高金金融研究院,AI+金融方向。AI+金融的浪潮已至,你准备好了吗?与行业先锋共探科技金融新未来!Datawhale联合。📍上海·模速空间(徐汇区)⏰2025年9月6日。
2025-09-05 19:23:56
79
转载 全球TOP200!最新自然指数排名出炉
吉林大学、武汉大学、华中科技大学、苏州大学、南开大学、南方科技大学、厦门大学、西安交通大学、中南大学、同济大学、天津大学、华南理工大学、湖南大学、哈尔滨工业大学、郑州大学。扬州大学、南京工业大学、青岛大学、青岛科技大学、江苏大学、广东工业大学、南方医科大学、浙江工业大学、河南师范大学。中国科学技术大学、北京大学、中国科学院大学、清华大学、上海交通大学、南京大学、复旦大学、中山大学。在本次最新自然指数排名中,哈佛大学位居全球高校第1,这9所高校同样表现优异,位居全球高校前200。非“双一流”高校中,
2025-09-03 21:49:24
51
转载 读懂Transformer的内核,了解大模型基石
Datawhale干货 作者:王大鹏,Datawhale成员当我们谈论大模型时,Transformer架构无疑是最重要的里程碑之一。它不仅是当前大模型处理任务的基础架构,更是理解现代大模型系统的关键。今天,我们将通过论文原理与PyTorch源码API相结合的方式,深入探索Transformer的设计和实现细节。让我们先从经典架构图理解Transformer的整体设计思路。Transformer分为两个主要部分:左侧的编码器(Encoder)和右侧的解码器(Decoder)。编码器的职责是接受完整的源序列输入
2025-09-02 22:06:04
54
转载 刚刚,DeepSeek最新发文,回应国家新规:公开V3/R1训练全部细节!
为了确保模型的安全性,在模型优化训练阶段,DeepSeek 构造了专门的安全数据对模型进行安全对齐,教会模型的回复符合人类的价值观,增强模型内生的安全能力。此并非简单检索或「复制粘贴」训练数据中的原始文本,模型也并未存储用于训练的原始文本数据副本,而是基于对语言结构和语义关系的深度理解,动态生成符合语境的回答。此外,模型性能也受参数规模的制约,而训练的目的就是找到具体的参数值。,模型一般通过 SFT、RL 等方法,学会根据指令回答问题,符合人类的偏好和需求,并激发在特定领域的专业能力。
2025-09-01 22:01:23
4585
转载 一文读懂新规,AI合成内容今后要有“水印”
今年3月,国家互联网信息办公室联合工业和信息化部、公安部和国家广播电视总局正式印发了《人工智能生成合成内容标识办法》,与此同时,配套的强制性国家标准《网络安全技术 人工智能生成合成内容标识方法》也获批发布。今年3月,国家互联网信息办公室联合工业和信息化部、公安部和国家广播电视总局正式印发了《人工智能生成合成内容标识办法》,与此同时,配套的强制性国家标准《网络安全技术 人工智能生成合成内容标识方法》也获批发布。标准:人工智能生成合成内容标识办法。Datawhale分享。,都必须打上“电子水印”。
2025-09-01 17:55:46
62
转载 李国杰院士:AI4S里程碑式重大成果综述
Datawhale干货 作者:李国杰,中国工程院院士李国杰中国科学院计算技术研究所人工智能(artificial intelligence, AI)自诞生以来,主要向2个方向发展。一是模仿人的认识、思考和行动,能像人一样听说读写并与周围世界互动,要解决的问题的边界是模糊的,问题没有精确的定义;二是解决边界清楚、定义精确的高维复杂问题,这类问题往往在科学上有重大意义。一方面,近几年由ChatGPT带动的生成式人工智能主要以模仿人类认知为目标,核心技术是文字、图像内容生成,聚焦推理能力提升和多模态融合集成,主要
2025-08-30 22:01:21
74
转载 信息量很大:谷歌核心团队最新分享实录,揭秘Nano-Banana如何训练
Datawhale干货 团队:Google Gemini团队,编译:数字开物前天,谷歌在最新直播中正式发布了代号为"Nano Banana"的Gemini 2.5 Flash图像生成模型,为用户带来了先进的图像生成和编辑能力。"Nano Banana"在多个关键领域实现了显著提升:视觉质量大幅改善:相比今年3月发布的2.0 Flash版本,新模型在图像质量上有了质的飞跃,达到了与谷歌Imagine模型相当的水准。编辑能力更加自然:解决了此前版本中编辑效果"复制粘贴感"过强的问题,新模型能够更自然地融合编辑元
2025-08-30 10:13:42
178
原创 AI编程神器Cursor 六个最佳实践:全方面用好Cursor
而在生态层面,目前好的 MCP 平台仍然缺乏,尤其是在国内,探索还远远不够,最后,孟健把话题收束到更大的视角:AI Coding 将覆盖未来 90% 的代码,如果它能替代你的工作,说明你可能并不真正擅长编程。这套工作流的价值在于,它在公司层面削减了大量跨部门对齐与评审的时间,带来指数级的速度提升,而在个人层面,也让研发能真正专注在业务逻辑本身,而不是被无休止的沟通拖慢脚步。产品经理先用 V0 这样的前端化工具,把抽象的想法快速转化成可交互的 Demo,减少了信息在口头沟通中的损耗。这是创业最好的时代。
2025-08-29 22:01:37
1213
转载 恭喜最受欢迎的20位AI超级个体!越南同学强势入围!「最受欢迎奖」终于揭晓
最受欢迎奖”只是开胃小菜,真正的硬核榜单——由专业评委打分评比的。( 请把“敬业”打在公屏上,顺便加关注亮灯牌刷火箭…我们带病坚守一线,喝着手里的板蓝根,把最好的活动体验带。以上就是获得最受欢迎奖的 20 位同学及其作品啦!这份终极榜单将评选出综合实力最强的AI超级个体,最终结果将在不久后公布,敬请期待!( 鲸宝忙着玩大家做的小游戏,忘记给它充电了 )快来瞅瞅有没有你或者你pick的大佬~播课: 人生规划指南-->从目标到行动。快来点亮你的技能树,展现不一样的自己。今天的获奖报道有点长,请耐心观看。
2025-08-29 14:49:06
42
原创 20万奖金+面试直通!文心大模型AI赛事来了
本届赛事依托文心 4.5 系列开源模型的技术能力,聚焦「多模态应用」与「AI+硬件」两大前沿方向。大赛面向全社会开放,个人、高等院校、科研单位、企业、创客团队、海外选手及人工智能研究机构等人员均可报名参赛。基于文心 4.5 系列开源模型构建软硬件深度融合的原生AI硬件产品。2025 开放原子开源生态大会上,第三届开放原子大赛正式拉开帷幕。,开放原子大赛由开放原子开源基金会主办,吸引了超百所高校及企业参与。文心开源创新大赛作为“开放原子大赛”下的重要赛项之一,允许单人/多人参赛,团队人数最多不超过三个人。
2025-08-28 22:01:43
208
转载 涨知识了,怎么估算大模型的训练时长?
此处就不去考虑各种诸如 TP,PP,DP,EP,CP 这些模型并行的策略了,我只是大概了解基于 All-Reduce、All-Scatter 和 All-Gather 的通信/并行概念,但并不知道这些并行方式底层的通信方式和所需的通信量。这边就先写到这里,之后可能会密集更新很多自己的幺蛾子想法和学习心得,我发现和评论区的网友 battle 能够帮助我去思考一些平时没有思考到的问题,在 battle 的过程中还是能学到很多的东西的,输出为王!把上面的那个数算出来,就已经能估计出训练时长的下界,将将够用。
2025-08-28 18:01:45
87
转载 读懂Transformer的层次,了解大模型基石
层归一化的公式为:LN(x) = γ * (x - μ) / σ + β,反向传播的梯度计算时:∂LN/∂x = γ/σ * (1 - 1/d - (x-μ)²/(d*σ²)),1 确保了梯度不会完全消失,-1/d 防止梯度因为均值计算被过度缩放,-(x-μ)²/(d*σ²) 用来减小梯度,防止输入值偏离均值大。以句子"大鹏在北京的工作是计算机"为例,句子中会包含多种关系,"大鹏"和"工作"是主谓关系,"北京"和"工作"是地点关系,"工作"和"计算机"是性质关系,每个头关注不同的关系,最终合并。
2025-08-27 20:54:24
72
原创 企业级基于DeepSeek模型的RAG系统,保姆教程来了!
建筑文档审查系统的主要流程如下。除了调用大模型,我们还需要实现 Embedding 模块,Embedding 模块用于将文本转换为向量,我们将使用向量来表示文档中的信息,这样的好处是,我们可以通过向量的相似度来衡量文档与查询之间的相似度,从而召回对回复用户问题最有帮助的文档。首先我们需要实现 LLM 模块,这是系统中最基本的模块,我们将利用大模型完成文档的清洗,信息提取等工作,可以说本系统的一部分精髓即为使用大模型预先处理文档信息,方便后续进行检索,这里我们使用 DeepSeek 的 api 来实现。
2025-08-26 22:58:51
874
转载 科学界论文高引第一人易主,Hinton、何恺明进总榜前五!
从学术主页来看,Bengio 2014 年提出的 「生成对抗网络(Generative Adversarial Nets)」 引用量已突破 10 万次,甚至超过了他与 Yann LeCun 和 Geoffrey Hinton 合著的经典论文 「Deep Learning」,不过,后者的引用量同样也超过 10 万次。在 top 10 名单中,我们也看到了 Ilya Sutskever 的身影,总引用量 67 万 +,排名第 7,单篇论文最高引用量 18 万 +。Datawhale分享。
2025-08-26 14:57:27
88
转载 Datawhale成员,组织NeurIPS 2025 世界模型 Workshop!
关键研究方向包括:构建多样的多模态数据集、提升跨模态对齐能力、开发高效的参数微调方法,以及使智能体在仿真或真实环境中执行复杂的语言引导任务。研究重点包括:基于动作条件的场景合成、智能体与环境之间的可控动态模拟,以及面向下游任务(如规划与策略学习)的评估方法和基准的开发,特别关注视频保真度、时间一致性与可控性等指标。)问题,即要求智能体在时间跨度较大的任务中,推理并执行一系列连续动作、预测延迟反馈结果,并在面对不确定性和有限反馈的情况下,仍能在时间上保持策略一致性。主要研究方向为视觉强化学习与世界模型。
2025-08-25 22:21:10
78
转载 没有思考过 Embedding,不足以谈 AI
文本嵌入(Text Embedding)几乎贯穿了所有 NLP 任务:检索、分类、聚类、问答、摘要……模型规模越大、主干越强,GPTE 性能越好,但解码器架构需更多参数才能与编码器架构匹敌。说到多模态,典型应用是RAG检索,从rag到multimodal-rag已然成一种趋势。PLM 让文本嵌入从“专用”走向“通用”,现在正迈向“多模态+多语言+多任务”大一统。下一步,嵌入模型需要“会推理、懂安全、能解耦”,而不仅是向量维度更高。:CodeBERT、GraphCodeBERT(结构+文本)
2025-08-24 23:22:11
54
转载 强化学习之父Richard Sutton新作:Oak架构!
有趣的是,使用选项模型进行规划,其数学形式与传统的基于单步动作的价值迭代惊人地相似,只是将“动作”替换为了“选项”,将“单步奖励”替换为了“选项执行期间的累积奖励”。这无疑是一个意义深远的智力里程碑,其影响将是革命性的。所有这一切,都在一个良性的、开放式的发现循环中协同工作:状态特征的发现,激发了问题、选项和模型的发现,而这些新产生的组件又反过来促进了新的、更抽象特征的形成。此外,在另一篇《奖励即足够》的论文中,我们进一步论证了,在一个足够复杂的世界里,即使是简单的奖励信号也足以引出智能的所有属性。
2025-08-23 22:21:56
86
原创 手把手教你给MCP工具做“体检”!
在工具调用机制的加持下,Agent 能抓取网页、查询数据库、读写本地文件乃至联动外部服务,完成过去需要人工协作的复杂任务。作为首个开源的模型通信协议,极大降低了工具接入门槛,促成了繁荣的工具生态。小贴士:将项目的 工具清单 与 模型调用入口 一并纳入扫描范围,能显著提高“闭环链路”命中率。实证攻击中,可直接拉起系统计算器等程序,意味着已打通从 Agent 到宿主系统的入侵通道。对 MCP 工具做系统性的安全评估,已经是“上线前的必选项”。的定位,是让每一个工具在进入生态前,都能完成一次。
2025-08-22 22:01:22
667
原创 发布首个面向全国高校师生的大模型实践课!
本次学习主要面向广大理工科大学生、研究生和参与教学的高校老师,特别适合以下背景或目标的学习者:计算机科学、软件工程、人工智能、数据科学、电子信息工程、自动化、数学、统计学以及其他对AI技术有浓厚兴趣的理工科专业学生。AI夏令营是Datawhale在暑期发起的大规模AI学习活动,在这个夏天,AI夏令营共上线了18个学习活动,是国内规模最大、活动最丰富的AI夏令营,参与人数超过1.5万。希望共同打造面向全国理工科的大模型基础实践课程。课程:Datawhale AI夏令营。参与了课程早期筹划并在交大试点,
2025-08-21 22:22:07
243
转载 2025年中国科学院院士有效候选人名单公布!
中国科学院、中国工程院8月20日公布2025年院士增选有效候选人名单,中国科学院院士增选有效候选人639人,中国工程院院士增选有效候选人660人。后续将进行外部同行专家评选、院士增选大会选举,选出新增选院士。以下为中国科学院“信息技术科学部”、“技术科学部”2025年院士增选有效候选人名单,值得注意的是AI领域大牛,2025年中国科学院院士增选有效候选人名单。中国工程院2025年院士增选有效候选人名单。公布:中国科学院院士候选名单。Datawhale分享。
2025-08-21 11:29:17
96
转载 关于2049年的85个预言
其次是找到真正喜欢你、愿意支持你的粉丝,这需要足够大的受众群和更好的匹配机制,当然也需要更多的交流和一定的运气。43. 未来的书将是一个人类知识的大合集,书与书之间可以互相连接,每本书都带有各式各样的超链接,把所有知识都串联起来,形成一个 Meta(元)文本 /Mega(超大)文本,就像一本“总书”,一本汇集了人类智慧的书。随着功能强大的 AI 助理的普及,人们可以让 AI 助理阅读所有的书,因为它对用户非常了解,所以可以在与用户互动的过程中找到每本书对用户来说最新颖的那部分内容,并将其推荐给用户。
2025-08-20 23:01:04
89
原创 用AI生成网页、海报、PPT!面向本科生、研究生的 AI 夏令营来了!
AI夏令营是Datawhale在暑期发起的大规模AI学习活动,汇聚产学研资源和开源社区力量,为学习者提供项目实践和学习机会,提升专业能力和就业竞争力。合作企业包括:字节跳动、科大讯飞、中国移动咪咕、蚂蚁集团、魔搭社区、阿里云天池、英特尔、浪潮信息,上智院等。在这个夏天,AI夏令营共上线了18个学习活动,是国内规模最大、活动最丰富的AI夏令营,分为。功能全新升级,一句话便捷生成、依据场景智能设计、支持重新生成二次编辑等,把AI用到制作网页、海报、PPT等学习和办公场景。🔥 扣子空间,你的 AI 办公空间!
2025-08-19 22:43:54
289
原创 C9 高校千人参与,总人数超1.3万,AI夏令营最后一期开放报名!
AI夏令营是Datawhale在暑期发起的大规模AI学习活动,汇聚产学研资源和开源社区力量,为学习者提供项目实践和学习机会,提升专业能力和就业竞争力。由Datawhale主办,联合头部科技企业的AI夏令营,今夏最后一期来了。依然关注学习者的需求反馈,除了。、魔搭社区、阿里云天池、英特尔、浪潮信息、上智院等。把AI用到制作网页、海报、PPT等学习和办公场景。合作企业包括:字节跳动、科大讯飞、中国移动咪咕、持续关注学习者的收获原因,以及产业对人才的需求,2025 AI 夏令营前三期,「什么是 AI 夏令营」
2025-08-18 22:04:53
350
转载 Datawhale特派员们闪现「2025 Google开发者大会」
他表示,中国开发者正借助Google的全栈AI解决方案,推动创新走向全球。还有现场那些前沿的技术展示,从强大到离谱的 Gemini 2.5 系列模型,到能在小运存设备上 “大显身手” 的 Gemma 3n。AI会画画、代码自己写,连手机都能变身算命大师(Gemini:这位开发者,你今天的代码运势是…,从 2025 Google 开发者大会现场凯旋啦,给大家带回一手小笔记!合照里,大家笑得多灿烂,身后是大会超酷炫的背景板,也是超酷的!一到现场,全球的技术大神、开发者们齐聚一堂,咱们的。解锁特派员的花絮照!
2025-08-18 12:14:35
79
转载 宇树机器人“撞人逃逸”火到国外,王兴兴回应:下次不遥控了
我觉得每个人对新技术、新产品都还是要抱有更开放的心态,对于每个行业而言,多多少少都有起伏,我觉得包括我在内,大家应该更开放接受这些起伏,对它的未来抱有更大的信心和支持。这件事,王兴兴回应,宇树的H1其实也具备了不用遥控器的能力,但因为策略不同,为追求速度,宇树最后在赛场中仍然采用了遥控策略。在撞击发生的前一刻,刚好是两名人类控制员交接遥控器的时间,两人交接过程当中没有注意到前面的人,未能及时发出避让指令。对于拿金牌这事,他表示完全在意料之中,这次也不是宇树H1取得的最好成绩,没有达到5米/秒的最高速度。
2025-08-17 22:06:24
85
转载 千支队伍争锋!首届「启智杯」算法大赛圆满落幕,助推AI应用落地
通过端到端的实战训练,他们不仅实现了从理论到工程的闭环能力提升,显著拓展了认知边界,对科研成果转化与工程落地的整体理解与掌控能力也得到大幅增强。面对遥感图像中复杂且不可预测的干扰环境,冠军团队引入「课程式多任务微调」策略,结合自适应预处理机制,使模型在不确定性场景中依然保持稳健的感知与理解能力,验证了新一代 AI 系统的落地潜力。展望未来,「启智杯」将继续面向真实世界挑战,拓展更具技术深度与产业价值的命题方向,进一步打通产学研用联动链条,构建一个聚焦实战能力、推动生态协同、加速技术落地的人工智能创新平台。
2025-08-17 22:06:24
70
转载 大模型SFT 22条实践经验,干活效率翻倍!
gradient_accumulation_steps -16 / 32 / 64 / 128 等数字都可以尝试下(梯度累加就是,每次获取 1 个 batch 的数据,计算 1 次梯度,梯度不清空,不断累加,累加一定次数后,根据累加的梯度更新网络参数,然后清空梯度,进行下一次循环)。V100 不支持 bf16,但支持 GPTQ 模型和 FP8。摘抄:模型的预测时间可以近似理解为:k*x+b,其中 b 是首个 token 的耗时,k 是后续每个 token 的耗时,x 是生成 token 的总数量。
2025-08-17 18:01:25
85
转载 大模型如何推理?最火斯坦福CS25的重要一课!
Denny Zhou 不仅是 Google DeepMind 的顶尖科学家,还曾在 Google Brain 创立并领导了推理团队(Reasoning Team),现在该团队是 DeepMind 的一部分,专注于开发具备推理能力的大语言模型,以推动人工智能通用智能的发展。SFT 实际上是一个通用的方法,如果这就能解决 AI 的推理问题,那事情就太简单了,然而它的泛化能力是有限的。我们还可以尝试其他方法,如通过简单的自然语言提示,直接指导模型进行链式推理,这就是「链式思维提示」奏效的原因。
2025-08-16 22:00:43
60
转载 拿到OpenAI全职offer的经历(毫无保留)
如果你已经知道招聘经理是谁,就去 Google Scholar 上查查他们的学术主页,读读他们的论文,看看他们的推特,观看他们做过的演讲或报告。事实上,你与任何公司或其代表的每一次互动,都是展示你个人品质、能力和热情(无论是积极还是消极)的机会,这种情况从第一次交流开始,一直到你签署 offer 当天都适用。这可能会有些尴尬,因为有些问题你可能无法回答,或者面试官的直觉与你不同,甚至他们已经知道你的方法行不通,但这是机密所以不能告诉你……他们会向你介绍面试流程,告诉你招聘经理是谁、所在团队是做什么的。
2025-08-15 22:02:13
101
转载 报名倒计时一天!国内首个大模型攻防主题赛事
在检测阶段,主办方将提供涵盖多种生成技术、多场景覆盖的大规模视频防伪数据集,参赛队伍需研发高效检测算法,针对伪造痕迹、时空一致性异常等特征进行建模,并在统一测试集上验证模型的判别能力,推动视频内容真实性鉴别的技术突破。联合主办,上海人工智能实验室、清华大学、浙江大学、上海交通大学、复旦大学、湖南大学、北京科技大学、蚂蚁消金、阿里云天池等二十余家顶尖科研院校和机构共同发起,为2025 Inclusion·外滩大会科技智能创新赛在“AI安全”领域的赛事单元。Datawhale推荐。赛道一:图片全要素交互认证。
2025-08-14 14:22:53
132
原创 全球排名第五,国内排名第一
happy-llm直接刷新了Datawhale最快突破10000颗Star的记录,仅仅用了两个月的时间就增长了13000+颗Star!self-llm也迎来了一波新的爆发,共上涨6000+颗star,llm-universe,llm-cookbook,easy-rl这些优秀的仓库仍然保持了很优秀的star涨幅。在2025年5-7月,Datawhale迎来了“爆炸性”的增长,共增长31861颗star,是Github所有同类型组织中涨幅最高的一个,全球排名前进11名,来到了53名,增速最快的5个开源项目。
2025-08-13 22:04:55
205
原创 首增就业方向,面向算法、开发、产品offer
AI夏令营是Datawhale在暑期发起的大规模AI学习活动,汇聚产学研资源和开源社区力量,为学习者提供项目实践和学习机会,提升专业能力和就业竞争力。项目履历包括:Datawhale春训营、夏令营、冬令营或组队学习的实践项目、赛事项目(国内外相关赛事。合作企业包括:科大讯飞、中国移动咪咕、蚂蚁集团、魔搭社区、阿里云天池、英特尔、浪潮信息、上智院等。由Datawhale主办,联合头部科技企业的AI夏令营。根据大家的反馈,增加了岗位科普、简历准备、模拟面试,仅面向在开发、算法或产品有项目履历或实习经历的同学。
2025-08-12 22:00:55
433
转载 从微软、字节到阶跃:他用十年讲清了AI Infra是啥
其实类似的,回复你的首字延迟,以及之后吐字的速度是否稳定、流畅。当客户的数据被管理好之后,自然也可以做一些 AI,因为 AI 本质上也是学习和处理数据的,所以他们也在往 AI 方向转型。另一个原因是上下游的影响,比如 OpenAI、Google 都在自己做芯片,他们的资金和人才储备让他们更容易做到硬件与模型的整套 co-design。:顺便提到 Google,美国那边其实有很多专门做 Infra 的大公司,比如 CoreWeave,可能大家听得少一些,但它是美股里今年涨了好几倍,而且和英伟达的卡绑定很紧。
2025-08-12 16:17:38
86
转载 一文全解析:AI 智能体 8 种常见的记忆(Memory)策略与技术实现
它能够在保持对话响应速度的同时,保留大量历史信息,适合低延迟对话、时间跨度较大的任务型助手,以及需要随时回溯旧信息的场景:当用户提出涉及过往内容的问题时,系统可以像操作系统一样将“被交换出去”的记忆及时“唤醒”,实现高效又节省资源的记忆管理。,一旦窗口滑过,旧信息就永久丢失,无法支持真正的长期记忆。:当用户提问中包含关键词,而这些关键词所需的信息不在当前RAM中,系统就会触发“Page Fault”,从被动记忆中搜索匹配内容,并“page in”上下文,再供LLM使用。索结果也可能风马牛不相及。
2025-08-11 22:32:58
131
转载 喵神:一个半月高强度Claude Code使用后感受
Datawhale干货 作者:王巍(喵神),知名 iOS/Unity 开发者六月中旬某个闷热的夜晚,在初浅尝试使用 API Key 帮我迅速完成了一个任务后,我毫不犹豫地点下了 Claude Max 的订阅按钮。作为一个“买断制”时代的遗老,每月一两百美金的订阅对当时的我来说还是太超前了。但是在一个半月之后回头望去,看着那些按照 API 计价的被我烧掉的价值 3000 多美金的 token,我似乎捡到了一个超大便宜?不过最近 Anthropic 宣布了新的 weekly 限制,想来大概针对的就是我这种“重度
2025-08-10 22:01:32
188
原创 从推理轨迹反推:gpt-oss背后的训练策略
OpenAI 在 8 月 6 号的凌晨开源了两个 MoE 模型:gpt-oss-120b 和 gpt-oss-20b,并且原生支持 MXFP4 训练和推理,gpt-oss-20b 模型可以直接在一张 16G 的显卡上运行起来,在我的 macbook air 上也可以运行,并且速度还不错,每秒可以输出 17 个 token。此外,gpt-oss 通过在 system prompt 中设置推理预算来控制模型思考长度的方式,侧面佐证了模型在训练时,关于“推理成本”的评价维度已经被内化为模型的对齐目标。
2025-08-09 22:12:46
549
Python数据分析与挖掘实战(高清带标签+源代码)
2018-06-20
机器学习_数学基础_精选教材(概率,线代,微积分)
2018-08-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人