
业界观点
文章平均质量分 92
OneFlow深度学习框架
SiliconCloud,让产品开发者实现Token自由。siliconflow.cn/zh-cn/siliconcloud
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
AI半导体技术、市场与未来
过去两年,英伟达崛起是科技领域的一个经典案例。通过CUDA系统,他们创建了一个使用GPU进行机器学习的开发者生态系统;通过Mellanox,他们成为了数据中心网络的领导者。然后,他们将所有硬件集成到服务器中,提供垂直集成的算力一体机。凭借这一系列组合性技术优势,英伟达在“AI淘金热”中提供的铲子占据行业核心地位,这导致它成为有史以来最成功的公司之一。随之而来的是,不少挑战者入局以求从英伟达主导的市...原创 2024-12-05 13:05:10 · 11618 阅读 · 0 评论 -
比GPU快20倍?d-Matrix推理性价比分析
AI推理算力需求正在大幅增长。一方面,像硅基流动、Fireworks这样的AI基础设施软件公司通过软件层面的优化以提供高性价比的大模型推理服务,另一方面,以Cerebras、Groq为代表的芯片公司相继推出了专用AI推理芯片,通过硬件层面的创新,以数量级的推理速度与成本优势来挑战英伟达GPU的市场地位。AI推理芯片市场的竞争者还在增加。近日,成立于2019年的硅谷推理芯片创业公司d-Matrix的...原创 2024-12-04 08:03:47 · 1509 阅读 · 0 评论 -
生成式AI推理技术、市场与未来
OpenAI o1、QwQ-32B-Preview、DeepSeek R1-Lite-Preview的相继发布,预示着生成式AI研究正从预训练转向推理(Inference),以提升AI逻辑推理(reasoning)能力,这一转变将极大推动上层应用的发展。红杉资本近期指出,在可预见的未来,逻辑推理和推理时计算将是一个重要主题,并开启生成式AI的下一阶段。新一轮竞赛已然开始。那么,在推理这一新兴市场,...原创 2024-12-01 13:04:01 · 1657 阅读 · 0 评论 -
50张图,直观理解混合专家(MoE)大模型
Mixtral 8x7B的高效训练与推理效果曾引发AI社区对混合专家(MoE)模型的广泛关注,后来居上的国产开源大模型DeepSeek以及腾讯近期开源的Hunyuan-Large(基于Transformer的最大MoE模型)也选择了MoE框架路线。为何大语言模型总是离不开MoE的身影?借助50多个图例,数据科学家Maarten Grootendorst由浅入深多维度剖析了MoE模型,从基础概念出...原创 2024-11-29 08:03:48 · 6970 阅读 · 0 评论 -
LLM后训练绝招:1%预训练成本,实现最高20倍算力扩展效果
根据规模定律,扩大训练计算规模可以提高大型语言模型(LLM)性能的关键,但调研机构Epoch AI的研究,LLM再训练无需高额费用,也能让AI能力获得显著提升。在该研究中,他们引入了一个基本框架,用于量化后训练增强的收益和成本,特别是通过计算等效增益来衡量收益。他们将该框架应用于一系列具有代表性的后训练增强,并发现性能提升非常显著,但微调成本通常与预训练成本相比非常小,某些后训练增强技术可以在不到...原创 2024-11-27 13:05:04 · 4231 阅读 · 0 评论 -
LLM逻辑推演策略选择:推理时计算 vs 训练时计算
AGI实现的一大标志是,具备人类级别的逻辑推理(reasoning)能力。近期,随着推理(inference)模型GPT o1、DeepSeek R1-Lite的发布,模型的逻辑推理能力得到显著提升,也预示着对LLM潜力的深度挖掘正在转向推理阶段。围绕增强LLM逻辑推理能力这一目标,美国人工智能与密码学研究实验室Bagel团队结合最新研究,从算术、常识和符号这三种主要逻辑推理类型出发,对比了在推理...原创 2024-11-22 10:04:14 · 3816 阅读 · 0 评论 -
企业生成式AI最新调查:AI支出激增6倍,多模型部署盛行
企业AI格局正在迅速重塑。随着实验项目逐步落地投入生产,海外风险投资机构Menlo Ventures最新发布的《2024年企业生成式AI现状》报告对600名企业IT决策者展开了调研,深入分析了这场变革中正在浮现的新赢家与失利者。(本文由OneFlow编译发布,转载请联系授权。原文:https://menlovc.com/2024-the-state-of-generative-ai-in-the...原创 2024-11-21 12:54:12 · 5315 阅读 · 0 评论 -
强化学习之父Richard Sutton:AGI研究的下一个范式
OpenAI下一代GPT近期被爆遇到瓶颈,这让“Scaling Law撞墙”的声音变得更响,尽管业内对此争论不休,但现实情况是,大模型确实不再像年前那样有突飞猛进的进展。作为启发大模型领域提出Scaling Law的研究者,强化学习之父、阿尔伯塔大学教授Richard Sutton在2019年发表了后来被AI领域奉为经典的The Bitter lesson。在这篇文章中,他指出,AI研究在过去70...原创 2024-11-20 08:04:04 · 4692 阅读 · 0 评论 -
推算LLM训练的GPU内存需求
本文将分析大语言模型训练的GPU内存需求,主要包括三个方面:训练数十亿参数基于Transformer的LLM时,每个GPU设备需要多少GPU内存;估算内存需求的公式是什么;如果模型无法匹配内存,在实践中应采取哪些措施来减少内存需求。(本文由OneFlow编译发布,转载请联系授权。原文:https://medium.com/@maxshapp/understanding-and-estimating...原创 2024-11-08 08:03:16 · 4279 阅读 · 0 评论 -
10个改变日常的大模型隐藏玩法
大模型可以写代码、做客服、帮忙写文章,但这些不过是冰山一角,大模型还有哪些不为人知但实用的用途?最近,关于大模型的隐藏技能在Reddit上引发热议,各种有趣的“武林秘籍”层出不穷。以下是部分大模型玩家眼中被低估的用途:1. 我手头大约有80盘VHS家庭录像带,于是把它们全部转换成了数字格式。然后,我将每段1-4小时的视频通过Whi...原创 2024-10-26 10:33:45 · 5654 阅读 · 0 评论 -
生成式AI的新战场:逻辑推断与推理计算
自生成式AI革命开启以来,研究正推动该领域从"快速思考(即迅速给出预训练的回应)",向“缓慢思考(即在推理[inference]过程中进行逻辑推理[reasonging])”转变。这一转变正在开启一系列全新的智能应用。生成式AI市场的基础层正趋于稳定,处于一种由一批关键的大型企业及企业联盟构成的均衡状态,其中包括Microsoft/OpenAI、AWS/Anthropic、Meta以及Google...原创 2024-10-25 09:33:54 · 4784 阅读 · 0 评论 -
LLM量化效果评估:50万次实测后的发现
尽管量化已成为大模型性能优化的常规技术手段,但由于很难评估模型量化的实际效果,依然有人质疑量化模型的准确度与生成质量。对此,基于Llama 3.1系列模型,AI模型优化与加速推理服务商Neural Magic进行了超五十万次的实测,以对比模型量化与原始模型的效果。以下是他们评估后中的要点:1.设计了一套覆盖广泛推理场景的评估体系,确保从结构化任务到实际应用的全面分析,包括学术基准测试、真实场景基准...原创 2024-10-24 08:03:19 · 3611 阅读 · 0 评论 -
NotebookLM爆火背后:AI原生产品的核心洞察与创新
Perplexity、Cursor爆火之后,NotebookLM成为又一款备受欢迎的AI原生产品。NotebookLM是Google实验室(GoogleLabs)在2023年5月推出的一款原生AI笔记管理工具,能帮助用户高效地组织和提取信息,其前身是Google的Project...原创 2024-10-16 08:03:51 · 2756 阅读 · 0 评论 -
AI不是另一场“互联网泡沫”
此前,OneFlow发布的《2美元/小时出租H100:GPU泡沫破灭前夜》一文在业内引发强烈反响。不管怎样,当前GPU价格下跌是一个事实,然而这并非唱衰整个AI行业,恰恰相反,更多企业与个人开发者会因此获得更便宜的关键算力资源,同时,随着AI推理与微调需求的增长,这对促进AI应用市场的爆发具有正向作用。更进一步来看,即使存在GPU泡沫,是不是也意味着AI也是一场巨大的泡沫?基于200多页的Stat...原创 2024-10-22 09:33:22 · 905 阅读 · 0 评论 -
AI工程师指南:我是谁,从哪来,到哪去?
生成AI 正在以前所未有的速度重塑各行各业,而站在这场变革最前沿的莫过于 AI 工程师们。在「十字路口」的最近一期播客中,主播Koji(新世相创始人)与Ronghui(科技VC)两位邀请了两位 AI 领域的杰出人物硅基流动创始人&CEO 袁进辉与独立开发者 idoubi分享他们对 AI 工程师这个职业的独到见解。从底层技术到应用开发,从...原创 2024-10-12 08:04:01 · 991 阅读 · 0 评论 -
2美元/小时出租H100:GPU泡沫破灭前夜
红杉资本的报告曾指出,AI产业的年产值超过6000亿美元,才够支付数据中心、加速GPU卡等AI基础设施费用。而现在一种普遍说法认为,基础模型训练的资本支出是“历史上贬值最快的资产”,但关于GPU基础设施支出的判定仍未出炉,GPU土豪战争仍在进行。尤其是,以OpenAI为代表的大模型公司在训练+推理上的支出超过了收入,最近他们在有史以来最大的风险投资轮中筹集了66亿美元,同时预计2026年的亏损将达...原创 2024-10-13 08:03:41 · 6303 阅读 · 0 评论 -
开源AI背后的商业密码
商业公司为何热衷于开源项目?为什么要花费大量资源研发一个免费公开,甚至可能暴露竞争优势的工具?本文作者将从商业角度探讨这个问题,重点分析AI技术生态系统中的不同利益相关者如何利用开源软件取得优势,并探讨公司如何通过开源增加业务采纳度的不同策略。(本文由OneFlow编译,转载请联系授权。https://artificialintelligencemadesimple.substack.com/p/...原创 2024-10-05 10:45:29 · 6872 阅读 · 0 评论 -
大模型成本效益对比:DeepSeek 2.5 VS Claude 3.5 Sonnet VS GPT-4o
与Claude和GPT模型相比,DeepSeek模型过去一度被开发者社区忽视。不过,过去几个月以来,DeepSeek的发展势头非常迅猛。随着DeepSeek 2.5发布(该版本整合了DeepSeek-V2-Chat和DeepSeek-Coder-V2-Instruct的功能),该模型热度达到顶峰。DeepSe...原创 2024-09-27 08:04:05 · 9096 阅读 · 0 评论 -
LLM逻辑推理的枷锁与破局策略
大型语言模型(LLM)常常看似能够有效地进行推理(Reasoning)。它们能够给出连贯且与上下文紧密相关的回复,这些回复与人的推理结果相似。不过,这种表面上的能力可能会产生误导。大型语言模型在面对需要大量推理链的复杂问题时经常犯错。它们的回复起初可能看起来合乎逻辑,但往往缺乏进行...原创 2024-09-24 13:05:22 · 3908 阅读 · 0 评论 -
AI市场的资本谜团与流向
本文将详细解答许多人心中的一个关键问题——AI的资金都流向了哪里?作者从AI行业的全局视角出发,将AI的价值系统性地分解成了不同的部分,并通过诸多数据点深入分析了具体话题。(本文由OneFlow编译发布。转载请联系授权:https://artificialintelligencemadesimple.substack.com/p/the-current-state-of-ai-markets-gu...原创 2024-09-11 08:55:35 · 3819 阅读 · 1 评论 -
900个开源AI工具背后,我看到的趋势
四年前,我对开源机器学习生态系统进行了分析。自那时起,情况就发生了变化,所以这次我打算重新讨论这个话题,本次主要关注的是基础模型的技术栈。我把完整的开源AI代码库列表放在了“llama-police”(https://huyenchip.com/llama-police,该列表每6小时更新一次。其余大部分也放在了我的GitHub“c...原创 2024-05-16 08:03:58 · 6495 阅读 · 0 评论 -
Cerebras:挑战英伟达,全球最快AI推理芯片的“魔法”
大模型的出现使得AI芯片的需求暴增,但在这个市场,英伟达占据了近90%份额,其市值也曾超过3万亿美元。为什么英伟达能一家独大?尽管芯片市场上还有AMD等厂商,但在需要大规模算力集群的大模型预训练阶段,英伟达几乎是唯一一个接收过数万块GPU芯片性能运行验证与反馈的平台,这对其他芯片厂商来说存在非常高的门槛,当然,英伟达GPU软件栈在加速方面也具有优势。随着大模型推理需求大幅增长,开发者可以使用小规模...原创 2024-09-09 08:07:24 · 4630 阅读 · 0 评论 -
GPU利用率背后的性能真相
一般而言,机器学习团队理解GPU使用情况的常见度量标准是GPU利用率,通常通过在终端中运行nvidia-smi来查看。许多集成的可观测性工具也将GPU利用率作为其主要性能指标进行跟踪。然而,AI Infra团队Trainy在实操中发现,GPU利用率并不总是理解GPU性能的最佳指标。实际上,在不做任何计算的情况下读取/写入内存,就可达到100%的GPU利用率!本文作者Roanak Baviskar在...原创 2024-08-27 08:03:51 · 5745 阅读 · 0 评论 -
10倍加速LLM计算效率:消失的矩阵乘
矩阵乘法(MatMul)是深度学习中的主要计算瓶颈,尤其在ChatGPT等Transformer模型中,矩阵乘法的运行时长约占其总运行时长的45-60%,解决这一挑战对发展更经济的大模型具有重要意义。为此,加州大学的研究人员在论文《Scalable MatMul-free Language Modeling(可扩展的无矩阵乘法语言模型构建)》 中试图通过消除矩阵乘法来构建更便宜、耗能更少的语言模型...原创 2024-08-20 09:15:21 · 2924 阅读 · 0 评论 -
前OpenAI联创、ChatGPT负责人John Schulman:大模型的升级秘诀
8月6日,OpenAI联合创始人、ChatGPT架构师John Schulman宣布离职,将加入另一家由前OpenAI员工Dario Amodei创办的大模型公司Anthropic。近9年前,Schulman在研究生毕业后加入OpenAI,成为创始团队的一员。他是深度强化学习的早期先驱之一,很多人不知道的是,他也是ChatGPT项目的负责人,是他领导了ChatGPT的秘密武器RLHF(人类反馈的强...原创 2024-08-08 18:06:01 · 6652 阅读 · 0 评论 -
AI搜索Perplexity的产品构建之道
作为一家刚成立不到两年的新公司,AI搜索新星Perplexity与搜索巨头Google和AI先锋OpenAI展开竞争,争夺未来搜索领域的一席之地。目前,Perplexity已经拥有数以千万计的用户,不过,该团队的成员还不到50人。更令人振奋的是,这个年轻团队已经实现了超过2000万美元的...原创 2024-08-02 11:50:08 · 3045 阅读 · 0 评论 -
AI Scaling的神话
截至目前,语言模型越来越大,能力也越来越强,但过去的表现能预测未来吗?一种流行的观点是,我们应该期待当前的趋势继续保持下去,并且出现更多数量级,这最终可能会引领我们实现AGI。本文作者认为,这种观点来自于一系列神话和误解。从表面上看,规模扩展(Scaling)具有可预测性,但这是对研究成果的误解。此外,有迹象表明,LLM开发者已经接近高质量训练数据的极限。而且,模型行业正面临着模型尺寸的强烈下行压...原创 2024-07-26 09:03:08 · 1430 阅读 · 0 评论 -
生成式AI推理企业的市场机遇、竞争与未来
在生成式人工智能时代的投资选择中,风投公司对“铲子型”初创企业的浓厚兴趣,这些企业的业务涵盖了模型微调、可观测性分析、以及人工智能的“抽象化”服务(例如,将AI Inference作为服务)等。人们预测,随着初创公司和企业将人工智能技术纳入其产品组合,他们可能不愿意或无法在内部构建这些技术能力...原创 2024-07-18 08:14:14 · 1681 阅读 · 0 评论 -
大模型产品化第一年:战术、运营与战略
这是一个激动人心的时代,所有人都能够利用语言大模型(LLM)进行各种各样的产品构建。过去一年里,LLM已经达到了“足够好”的水平,可以应用于现实世界的场景,并且模型每年都在迭代,变得更好、更便宜。伴随着社交媒体上的一系列产品演示,预计到2025年,AI领域的...原创 2024-06-21 11:03:57 · 4895 阅读 · 0 评论 -
生成式AI产业经济学:价值分配与利润结构
处在生成式人工智能(GenAI)技术变革的浪潮上,人们对这一将降低成本和产生利润的强大工具充满了期待。然而,ChatGPT爆火一年后,GenAI产业还没有形成像当前云服务产业那样的价值结构,后者的上层应用占据价值链中的大部分比例,并获取了大部分利润,基础设施软件层的利润次之,而硬件层分到的“蛋糕”最少。与之相反,在GenAI领域,硬件层却占据了近90%的利润率。蓦然回首,大家发现,整个产业链基本都...原创 2024-04-29 08:35:02 · 3018 阅读 · 0 评论 -
LLaMA 3:大模型之战的新序幕
本文要点概览:文本数据的扩展可能已经达到了极限,因为易于获取的网络文本资源(如Common Crawl、GitHub、ArXiv等)已基本被充分利用。尽管如此,通过更深入地挖掘互联网资源、搜寻图书馆藏书及使用合成数据,我们仍有望获得新的文本数据,但要实现数据量级的大幅提升却面临重重挑战——这些新增的数据更可能是当前数量级上的增量。规模扩展竞...原创 2024-04-25 08:04:06 · 2940 阅读 · 2 评论 -
LLM推理的极限速度
本文作者ArsenyKapoulkine从零开始开发了语言大模型推理的一种实现方式calm(https://github.com/zeux/calm),旨在以最少的实现和无依赖性的方式为LLM架构获得最大的单 GPU 单批次硬件利用率,该项目的其中一个关键考虑因素是确定推理的极限速度,并根据该极限来衡量相对进展。他在本文中探讨这一理论极限及其影响。如果你对进一步的推导和图表感兴趣,他在这份笔记(...原创 2024-04-09 08:03:20 · 3523 阅读 · 0 评论 -
强化学习之父Richard Sutton:通往AGI的另一种可能
2019年,强化学习之父、阿尔伯塔大学教授Richard Sutton发表了后来被AI领域奉为经典的The Bitter lesson,这也是OpenAI研究员的必读文章。在这篇文章中,Richard指出,过去 70 年来,AI 研究的一大教训是过于重视人类既有经验和知识,而他认为最大的解决之道是摒弃人类在特定领域的知识,利用大规模算力才是王道。这一思想很快得到了OpenAI首席科学家Ilya S...原创 2024-03-21 08:03:51 · 5142 阅读 · 0 评论 -
OpenAI的组织形态、决策机制与产品构建
与ChatGPT面世后的疑惑类似,视频生成大模型Sora发布之后,人们依然在问同样的问题:为什么OpenAI能做出这样的创新成果?要知道,世界上不乏人才密集、有钱、有数据的公司,但能持续做出划时代产品的团队寥寥无几。可以肯定的是,除了OpenAI团队中关键少数的技术远见,这些重量级产品的实现与他们的组织运作密不可分。那么,这些人到底是如何被组织起来的,他们有什么样的组织形态和文化?在Lenny R...原创 2024-03-01 08:49:24 · 4089 阅读 · 0 评论 -
GenAI的“关键一跃”:推理与知识
当前的人工智能领域正通过生成式人工智能(GenAI)经历一场重大转变。这一转变不仅代表了技术上的飞跃,更标志着人工智能领域的范式转变,引发了有关GenAI的独特特性及其深远影响的关键问题讨论。植根于计算革命的丰富历史,本文从计算复杂性角度出发,探索推理和知识的本质,将历史性成就与最新的进展巧妙地交织在一起,以丰富我们对人工智能的理解。(本文作者为吕坚平博士。以下内容经授权后由OneFlow编译发布...原创 2024-02-18 09:05:33 · 4679 阅读 · 0 评论 -
语言大模型推理加速指南
本文是一篇关于加快语言大模型推理速度的综合指南。从硬件优化到各种解码技巧,文章介绍了各种优化策略,旨在帮助读者更好地理解和优化LLM的性能。相信不论是这一领域的初学者或是专家,都能从中有所收获。本文作者为工程师和计算语言学家Theia。(以下内容由OneFlow编译发布,转载请联系授权。原文:https://vgel.me/posts/faster-inference/)作者 |TheiaOne...原创 2024-01-31 09:31:16 · 5155 阅读 · 1 评论 -
Mistral AI:探索LLM推理的吞吐、时延及成本空间
选择正确的LLM推理栈意味着选择适合你的任务的正确模型,并配以适当的推理代码在适当的硬件上运行。本文介绍了流行的LLM推理堆栈和设置,详细说明其推理的成本构成;并讨论当前的开源模型以及如何充分利用它们,同时还涉及当前开源服务栈中仍然缺失的功能,以及未来模型将解锁的新功能。本文源自MistralAI首席技术官Timothée Lacroix的演讲。他于2015年在Facebook AI Resea...原创 2024-01-24 09:18:25 · 5147 阅读 · 3 评论 -
大模型的规模扩展是否可持续?
GI何时会到来?如果我们能不断扩展LLMs++的规模(并因此取得更好和更通用的性能),就有理由期望到2040年(或更早)出现强人工智能,它能够自动化大部分认知劳动并加速人工智能研究。然而,如果扩展(scaling)不起作用,那么实现AGI的道路则会变得更加漫长、棘手。为全面探讨有关扩展的正反观点,我构造了两个虚构角色(正...原创 2024-01-17 09:05:35 · 5214 阅读 · 1 评论 -
机器学习硬件十年:性能变迁与趋势
本文分析了机器学习硬件性能的最新趋势,重点关注不同GPU和加速器的计算性能、内存、互连带宽、性价比和能效等指标。这篇分析旨在提供关于ML硬件能力及其瓶颈的全面视图。本文作者来自调研机构Epoch,致力于研究AI发展轨迹与治理的关键问题和趋势。(本文由OneFlow编译发布,转载请联系授权。原文:https://epochai.org/blog/trends-in-machine-learning-...原创 2023-12-05 08:04:02 · 9561 阅读 · 0 评论 -
可复现的语言大模型推理性能指标
LLMPerf是一个开源项目,旨在帮助用户对语言模型进行基准测试,并使其性能具有可复现性。它能够帮助用户评估不同LLM的性能,并根据具体任务做出明智的决策。该项目选择了多个指标来衡量LLM的性能,包括吞吐量、时延、内存使用和成本等。本文介绍了如何使用LLMPerf进行基准测试,并提供了一些实用的技巧和建议。此外,本文还对当前最流行的LLM进行了基准测试,并提供了详细的结果和分析。需要说明的是,LL...原创 2023-11-17 08:51:58 · 4144 阅读 · 1 评论