编辑 | 言征 出品 | 51CTO技术栈(微信号 :blog51cto) 2025年开年,博通AI芯片的连续流接零租赁市市场角逐再度成为大洋彼岸的角逐话题 。近日,天暴霸主英伟达的涨英自由收入增长速度开始放缓 ,相比之下过去30天博通等公司股价持续暴涨,伟达伟达微软业界很多人都在猜测率先打破英伟达垄断地位的将遭近于第二“英伟达”会是谁?云租赁市场又会发生怎样的变化? 12月25日,最新一期的平替BG2播客中 ,主持人比尔·格利(Bill Gurley)和布拉德·杰斯特纳(Brad Gerstner)再次同台,势不剩年剩并邀请了SemiAnalysis的够英创始人兼首席分析师迪伦·帕特尔(Dylan Patel),香港云服务器一起来讨论AI芯片 、卡生半导体领域正在进行着的产过场此消彼长和开年AI巨无霸的最新动向。 播客中,现金三位讨论了芯片竞争中英伟达的博通众多对手:AMD 、Intel、连续流接零租赁市谷歌 、天暴亚马逊甚至包括曾扬言要打造自己芯片的OpenAI等内部的一些新进展 ,以及存储市场的利好利空和未来预测,比如他们预计内存市场的增速将会超过GPU(领先硅) 、亿华云2026年微软和Meta的自由现金流将接近于0 ,这是马斯克带头大搞军备竞赛的结果。 在开始讨论这个话题之前,三位还探讨了AI预训练的撞墙 、合成数据生成,以及既然都在说“预训练已过时”但仍建造更大集群的悖论、推理时的计算等。 话不多说 ,这就为大家奉上精彩的观点。 微软在OpenAI模型上赚取50%到70%的毛利率。服务器租用这是他们从AI获得的利润分成或他们放弃的份额。有15家不同的公司在那里提供Llama和阿里巴巴和DeepSeek和Mistral等不同模型的API推理 。如果我们只是部署lalama 7 B质量的模型 ,我们已经过度建设了 ,这甚至不是开玩笑 。对于实验室而言,你必须拥有最好的模型 ,免费模板否则你什么都不是 。Nvidia最高的销售成本并不是台积电 ,这是人们没有意识到的,实际上主要是HBM内存。三星并没有大杀四方,因为低端正在遭受打击 ,高端又无法突破。AMD的GPU被认为更好的唯一原因:芯片上的模板下载HBM内存更多 。谷歌为一些英伟达可能没有那么关注的事情进行了工程设计 。所以实际上,芯片之间的互连在某些方面可能具有竞争力,甚至比英伟达更好 ,在其他方面则稍逊一筹 ,因为他们一直在与博通合作。博通非常适合制造NV交换机的竞争产品,许多人会认为这是英伟达在硬件方面相对于其他人的最大竞争优势之一。在接下来的六个月里 ,云计算谷歌TPU的购买会有所放缓,因为他们没有数据中心空间 。以下是相关的内容整理,原文节选整理如下 : 大模型进入推理价格战时代如同从Oracle进入到开发时代比尔: 快速提问 。我们承诺会讨论这些替代方案 。所以我们最终会到达那里 。但如果你回顾一下,我们已经多次使用互联网浪潮的比较 ,当所有的风险投资公司开始在互联网上发展时 ,他们都在Oracle和Sun上,五年后 ,他们不再在Oracle或Sun上。有些人认为他们从开发沙盒世界过渡到了优化世界。这种情况会发生吗 ?这里有没有等价性?如果你能谈谈为什么后端如此陡峭和便宜,你知道的,比如你退一步 ,你知道,你只需要稍微后退一点就可以节省很多成本 ,这很疯狂。 迪伦: 是的 ,所以 ,今天 ,对吧?像o1非常昂贵,你退到4o,它就便宜多了 ,你跳到4o和mini ,它非常便宜,为什么 ?因为现在我用4o和mini与Llama竞争 ,我与DeepSeek竞争。我与mistral竞争,我与阿里巴巴竞争 ,我与许多公司竞争。 比尔: 这些是市场出清价格。 (出清价格是指 :通过竞争机制形成的价格 ,使得市场供需达到平衡 。) 迪伦: 我认为是的 。此外,对吧,还有一个问题是推理一个小模型相当容易,对吧 ?我可以在1个AMD GPU上运行lalama 70 b,我可以在一个Nvidia GPU上运行lalama 70 b ,很快就会有像在亚马逊的新Trainium上运行一样 ,对吧 ?我可以在一个芯片上运行这个模型。这是一个非常容易的问题 ,我不会说非常容易的问题 ,仍然很难 。它比运行这个复杂的推理或这个非常大的模型要容易得多 ,对吧 ?因此,存在这种差异 ,对吧?还有就是,嘿,有15家不同的公司在那里提供Llama和阿里巴巴和DeepSeek和Mistral等不同模型的API推理 ,对吧 ? 布拉德: 我们在谈论Cerebras(芯片厂商)和Groq ,还有你知道的,Fireworks和所有这些其他的。 迪伦: 是的,Fireworks一起 。你知道的,所有这些不使用自己硬件的公司。当然,Groq和Cerebras正在做自己的硬件并也在做这件事 ,但市场,这些,这里的利润率很差 ,对吧 ? 你知道的,我们之前有关于推理价格战的事情,当mistral发布了他们的mixed stra模型时,这在去年晚些时候是非常革命性的,因为它达到了一个在开源中不存在的性能水平,它使价格下降得如此之快 ,对吧? 迪伦: 因为每个人都在为API竞争 。我作为API提供者能为你提供什么?为什么你不从mine切换到his,因为,嗯 ,没有 ,它相当通用,对吧 ?我仍然在同一个模型上获得相同的tokens ,所以这些家伙的利润率要低得多。所以微软在OpenAI模型上赚取50%到70%的毛利率。这是他们从AI获得的利润分成或他们放弃的份额,对吧? 或者 ,你知道的,Anthropic在他们最近一轮中,他们展示了70%的毛利率 ,但这是因为他们有这个模型,你退到这里 ,没有人使用这个模型 ,你知道的,从OpenAI或Anthropic使用这个模型的人要少得多,因为他们可以像取Llama的权重一样,放在自己的服务器上 ,或者反之亦然,去许多竞争的API提供者那里 ,其中一些是风险投资的 ,一些是 ,你知道的,而且在亏钱,对吧?所以这里存在所有这些竞争。 所以你不仅在说我要退一步,这是一个更容易的问题 。我 ,因此,如果模型小10倍 ,它就像在顶尖模型运行时便宜15倍。在顶部的那之上,我还要去掉那个毛利率。所以它不是运行时便宜15倍 ,而是运行时便宜30倍。所以这就是,这就是像 ,好吧,一切都变成商品了吗 ?但这里有一个巨大的追逐空间 ,如果你在部署服务 ,这对你来说是很好的 。 为什么非得要做最好的模型 ?能赚钱吗 ?迪伦: 你必须拥有最好的模型 ,否则你什么都不是,如果你是实验室之一,对吧?因此 ,你会看到许多试图构建最好模型但失败的公司都在挣扎。 布拉德: 而且可以说,你不仅需要拥有最好的模型 ,你实际上真的需要有一个愿意为最好的模型买单的企业或消费者 。因为归根结底 ,最好的模型意味着有人愿意为你支付这些高利润率。而那要么是企业,要么是消费者。所以我认为,你知道的,你很快就会缩小到只有少数人能够在这个市场上竞争。 迪伦: 在模型方面,是的。我认为在谁愿意为这些模型买单方面 ,我认为更多的人会为最好的模型买单,对吧 ? 当我们内部使用模型时,对吧 ?我们有 ,我们有 ,我们有语言模型检查每一个监管文件和许可,以查看数据中心的东西并将其提取出来,告诉我们应该看哪里以及不应该看哪里。我们只是使用最好的模型,因为它非常便宜,对吧 ?就像我从中获得的数据,我从中获得的价值要高得多。你们在用什么模型 ?我们现在实际上使用的是Anthropic,cloud three point。我看到了新的sonnet。所以只是因为o1在某些方面更好 ,但不一定是监管文件和许可以及类似的事情,因为错误的成本要高得多,对吧 ? 同样对于开发者来说 ,对吧?如果我能提高一个在湾区年薪30万美元的开发者20% ,那将很多 。如果我能用75或50个开发者完成一个团队100个开发者的同样工作 ,或者我能发布两倍多的代码 ,使用最昂贵的模型是如此值得的 ,因为o1很昂贵。相对于4o来说,它仍然非常便宜 ,对吧 ? 社会对智能的需求成本很高,对吧?这就是为什么智能工作是最高薪的工作,白领工作,对吧 ?或者如果能够降低智能的成本或增强智能,那么就会有一个很高的市场出清价格,这就是为什么我认为,哦,是的,o1很昂贵,人们总是会倾向于在一定水平上寻找最便宜的东西 。但每次我们突破一个新的智能水平时,不仅仅是 ,哦,你知道的,如果我们能多做几项任务 ,我认为它可以完成的任务模式会大幅增长 。 很少有人能使用GPT 2和3 ,对吧 ?当达到下一代的质量飞跃时,很多人可以使用GPT-4 ,能够使用它的人数,它可以完成的任务数量将会爆炸性增长,因此它可以增强的白领工作 ,提高生产力的数量将会增长,因此该tokens的市场出清价格将会非常有趣。 英伟达卡如果仅用来推理 ,显然是过度建设了比尔 : 非常有趣 。我可以提出另一种论点 ,即某人处于高容量状态,你知道的,这在取代大量客户服务电话或其他方面可能会倾向于绝对最小化支出 ,并最大化围绕这个东西构建的价值。数据库写入和读取等等 。 迪伦 : 所以,我喜欢的一个有趣的计算是 ,如果你取Nvidia出货量的四分之一 ,并假设它们都用于推理lalama 7 b ,你可以给地球上每个人每分钟100个tokens,对吧 ?或者对不起,每秒100个tokens 。你可以给地球上每个人每秒100个tokens,这很荒谬,你知道的。所以,如果我们只是部署lalama 7 B质量的模型,我们已经过度建设了,这甚至不是开玩笑。现在如果我们部署的东西可以增强工程师,提高生产力,并帮助我们更快地构建机器人或自动驾驶汽车或其他东西 ,那么这是一个非常不同的计算 ,对吧 ?因此,这就是整个事情 ,是的 ,小模型是存在的 ,但它们非常容易运行。 比尔 : 运行它们,这两者可能都是真的,对吧 ? 迪伦: 我们将有大量小模型在到处运行,但它们的计算成本非常低 。是的。 布拉德 : 比尔和我之前讨论过这个问题 ,关于你曾经报道的硬盘。但如果你看看内存市场,它一直是一个繁荣与萧条的市场 。想法是你总是在接近峰值时出售这些东西 。你知道的,你总是在低谷时购买它们 。你不会在中间的任何地方拥有它们 。它们的市盈率非常低 。我在谈论Hynix和Micron,当你考虑到推理时的计算时 ,似乎这些芯片所需的内存需求 ,Jensen已经谈了很多关于这一点 ,正在经历一个长期的上升趋势,对吧?因为如果他们进行这些传递 ,你知道的,你正在运行 ,就像你说的,10次或100次或1000次推理时推理 ,你只需要越来越多的内存,这就是上下文长度 。 内存市场的增长速度或超过GPU布拉德: 所以,谈一谈你对内存市场的看法。 迪伦: 是的,所以,为了更好地设定舞台,推理模型输出成千上万个tokens 。 当我们查看变换器注意力时 ,对吧 ?变换器的圣杯就是它如何理解整个上下文 ,这会显著增长。而Kv缓存 ,即跟踪这个上下文意味着什么的内存,是呈二次方增长的,对吧?因此,如果我从上下文长度10增加到100,这不仅仅是10倍,而是更多,对吧 ?所以你正确地看待它。今天的推理模型,它们会思考10000个tokens ,20000个tokens ,当我们达到 ,嘿,复杂的推理会是什么样子?模型将达到思考数十万个tokens的程度,而这只是整个思维过程的一部分,或者可能是某种搜索,但它会思考很多 。而这个Kv缓存将会膨胀。 比尔 : 你是在说内存的增长速度可能会超过GPU 。 迪伦: 客观地说,当你查看Nvidia的销售成本时 ,他们最高的销售成本并不是台积电,这是人们没有意识到的,实际上主要是HBM内存,至少目前是这样。 比尔 : 但没错,所以 ,所以有。 迪伦: 有三家内存公司,对吧 ?有三星 、SK hynix和Micron。Nvidia主要使用SK Hynix,这是内存市场整体的一个重大转变,因为历史上它一直是一个商品,对吧?也就是说,无论我从三星还是SK hynix还是Micron购买,它都是通用的。 比尔: 或者可以互换。 迪伦: 是的 。甚至现在三星也受到了很大的打击 ,因为有一个中国内存制造商cxmt ,他们的内存不如三星的好,但它是低端内存 ,它是通用的 ,因此低端内存的价格已经大幅下降 。在HBM方面,三星几乎没有份额 ,对吧 ?尤其是在Nvidia 。因此 ,这正在严重打击三星,尽管他们是世界上最大的内存制造商 ,哦,每个人总是说 ,如果你说内存,就像 ,是的。三星在技术上稍微领先一点 ,他们的利润率稍微好一点,他们正在大杀四方 ,对吧?但现在情况并非完全如此 ,因为在低端,他们受到了一点打击 ,而在高端,他们无法突破 |