英伟达的产能上不来,很大程度上是因为HBM(高带宽内存)不够用了。每一块H100芯片,都会用到6颗HBM。当下,SK海力士、三星供应了90%的HBM,并且技术领先美光整整一个代际。
众所周知,内存市场一直保持着三足鼎立的格局。其中,韩国人一家独大:三星与SK海力士两家公司,就占去七成市场。但排名第三的美光,仍保有20%以上的市占。双方打得你来我往,各有胜负。
这样的局面,韩国抵是不满意的。上世纪80年代,日本曾攻下了9成以上的存储器市场;这种压倒性垄断,才是韩国半导体的终极梦想。
因此在2024年初,韩国政府将HBM定为国家战略技术,并为HBM供应商提供税收优惠,准备再一次发起冲锋。
1945年,全球第一台计算机ENIAC问世在即,冯·诺依曼联合同事发表论文,阐述了一种全新的计算机体系架构。其中最大的突破在于“存算分离”——这是逻辑运算单元第一次从存储单元中被剥离出来。
最初,“炒菜”和“管仓库”的工作,其实都是由同一块芯片来完成的;随着“存算分离”的概念被提出之后,计算机才开始设立多个“岗位”,并分别“招募人才”。
这么做的好处显而易见:存储和逻辑芯片各司其职,如流水线一般丝滑,高效且灵活,很快获得了初代计算机设计者的青睐,并一路延续至今,经久不衰。
即存储器到逻辑芯片的数据传输速度,必须大于或等于,逻辑芯片的运算速度。翻译话就是,仓库管理员将食材送到后厨的速度,必须比主厨烹饪的速度快。
存储器明显跟不上逻辑芯片的迭代速度。以CPU为例,早在上世纪80年代,这种性能失衡已无法忽视。到21世纪前,CPU和存储器之间的性能差距已经在以每年50%的速率持续增长。
这就导致,决定一块芯片算力上限的,不是逻辑芯片的算力,而是内存的传输速度。厨师已经严重溢出,仓管能送多少食材,决定了后厨能出多少菜。
上个世纪,有人曾试着尝试改变现状,一批全新的芯片架构展露了头角。然而,蚍蜉难以撼树,相较于围绕冯·诺依曼架构建立的生态帝国——包括编程语言、开发工具、操作系统等带来的好处,那一点性能提升,不值一提。
OpenAI就曾做过一笔测算:从2012年的AlexNet模型到2017年谷歌的AlphaGoZero,算力消耗足足翻了30万倍。随着Transformer问世,“大力出奇迹”已然成为人工智能行业的底层逻辑,几乎所有科技公司都困于算力不足。
AMD是最先意识到问题严重性的科技巨头之一。对此,它采用了一种非常“简单粗暴”的解决方案——把存储器放到离逻辑芯片更近的地方。我把“仓库”建得离“后厨”近一点,送货速度不就提上来了么?
然而,AMD为了缩短两者的距离,打算将存储器移到和GPU同一封装内的同一块载板上。但载板面积十分有限,如同寸土寸金的中心城区。传统的内存往往面积又很大,仿佛一个特大型仓库,中心城区显然建不下。
我们可以把HBM想象成一座高达12层的超小型仓库。由于仓库面积小,占地需求大大降低,可以顺理成章地搬进中心城区;与此同时,从1楼到12楼,每一层都能存储数据,所以实际性能并没有缩水。
2015年,AMD推出GPU Fiji,在一块芯片载板上排布了4颗HBM,给了业内一个小小震撼。而搭载Fiji的高端显卡Radeon R9 Fury X,当年在纸面算力上,也第一次超过了英伟达同代的Kepler系列。
虽然从后续市场表现来看,Fiji是一个失败的作品,但没有妨碍HBM的惊鸿一瞥,搅乱一池春水。
然而,只有少数人,能从HBM浪潮中分走蛋糕。当下,HBM即将跨入,牌桌却始终凑不齐四个人。截至2023年,有能力生产HBM的厂商仍然只有三家:SK海力士、三星、美光。遗憾的是,这个局面大概率还将保持很久。
三巨头虽然也垄断了传统内存,但在市场景气时,二、三线厂商也能跟着喝上肉汤。可在HBM领域,其余厂商别说喝汤,连桌都上不了。
目前业内采用的技术叫TSV(硅通孔),是当前唯一的垂直电互联技术。通过蚀刻和电镀,TSV贯穿堆叠的DRAM裸片,实现各层的通信互联,可以想象成给大楼安装电梯。
由于HBM的面积实在太小了,导致对TSV工艺的精度有着极其严苛的要求。其操作难度,不亚于用电钻给米粒钻孔。而且,HBM还不止需要“钻一个孔”:随着大楼越造越高,HBM对TSV的需求量也会相应增加。
IDM模式是指,从设计、制造到封装全部由内存厂商一手包办。过去,三星等内存厂商之所以敢发动价格战,正是因为掌握了整个制造流程,可以最大程度挤压利润空间。
HBM毕竟不是一块独立的内存,需要安装到逻辑芯片旁边。这个过程涉及到更精细的操作、更精密的设备,以及更昂贵的材料,只能求助于先进封装技术。当下,只有台积电的先进封装技术达标,三巨头都是它的客户。
只是台积电的产能相当有限,僧多粥少,三巨头都不够用;新玩家想入局,还得看台积电乐不乐意带上你。
极高的技术门槛,以及对台积电先进封装产能的依赖,HBM大概率只能是少数人的游戏。也正是因为这些特点,让HBM战争的打法,注定与过去的内存战争迥然不同。
众所周知,传统内存的竞争往往围绕价格战展开。因为传统内存是个高度标准化的产品,各家之间性能差距并不大。往往谁的价格更低,谁就能拿到更多订单。
因为HBM主要用于AI芯片,其主要卖点就是性能。一块强大的AI芯片,能大幅缩短训练模型的时间。对科技公司而言,只要能尽早将大模型推向市场,多花些“刀乐儿”又何妨?
2016年,三星能在HBM市场反超SK海力士,正是因为率先量产了新一代的HBM 2,在技术上跑在了前头。
因为有能力生产AI芯片的科技公司,全世界数来数去就那么几家,对大客户的依赖度很高。过去几年,SK海力士、三星、美光围绕HBM的比拼,实际比的就是谁抱的大腿更粗。
SK海力士下场最早,一出道就绑定了颇有野心的AMD。可惜AMD的芯片销量不佳,连累SK海力士的HBM一度叫好不叫座。
相比之下,三星就相当“鸡贼”,凭借着率先量产的HBM2,成功抱上了英伟达的大腿,反超了SK海力士。
然而在2021年,SK海力士率先量产了HBM 3,成功将英伟达拉拢到自己的阵营中。如今全球疯抢的AI芯片H100,用的就是SK海力士的HBM。新大腿加持下,SK海力士彻底奠定了“HBM一哥”的地位。
2016年,美光和英特尔押注了另一条技术路线。蒙头研发了数年,美光才意识到选错了路线。此时,美光已经落后韩国对手整整两个代际。
受到HBM业务的拉动,去年三季度SK海力士在内存市场的份额暴涨至34.3%,距离超越三星仅有一步之遥。要知道,三星已经在内存市场Top 1的位置坐了30多年了。
然而,拼迭代速度、拼大腿,新的打法,意味着更大的变数。三大厂商,目前看似分出了一二三名,实则各有底牌,正缓缓露出冰山一角。
为了彻底杀死比赛,SK海力士准备直接颠覆HBM的设计思路。它计划于2026年量产HBM 4,准备把HBM直接安在GPU顶部,走向线D架构。也就是说,SK海力士准备直接将仓库建在后厨楼上。
毕竟HBM的设计初衷,就是为了缩短仓库与后厨的距离;那么干脆把仓库搬到后厨楼上,似乎是个很自然的选择。然而,现实情况却没那么简单。
把HBM装到GPU顶部之后,数据传输的速度确实是更快了,但芯片功耗也会大幅上升,产生更多的热能。如果不能及时散热,将大大降低芯片工作效率,造成性能损耗,颇有种拆东墙补西墙的意味。
前文曾提到,HBM技术高度绑定台积电的先进封装。但在当下,台积电的产能远远跟不上市场的需求,这就给三星留出了二度弯道超车的空间。
三星不仅是存储器市场的最大卷王,同时也是全球第二大晶圆代工厂。台积电有的,三星基本都有,包括先进封装,只是水平稍微差了些。
目前来看,三星的I-Cube技术显然是不及台积电的CoWoS,毕竟连三星自己都不用。但在台积电产能明显供不应求的当下,I-Cube技术就成了三星拉拢生意的武器。
SK海力士的老搭档AMD,就没能抵抗住“产能的”,更改了阵营。英伟达据说也有意试水,毕竟台积电的先进封装增产有限,启用三星有助于分散供应风险。
说实话,到目前为止,美光在HBM的战场上,一直处于被动挨打、从未翻身的局面。经过近几年的追赶,美光总算望见了先头部队的背影,但也仅仅只能跟在韩国人身后“捡漏”。
不过,这显然是美国人所不乐于见到的。目前,HBM的大客户们,大多来自美国。美光虽然落后,却未必会完全出局。最新爆料显示,英伟达刚向美光预订了一批HBM 3。
此前,韩国人之所以能在内存市场“百战百胜”,是因为竞争的规则极其明确:即拼产能、成本。内卷向来是韩国人的“舒适区”,毕竟他们血管里流的都是美式咖啡。
然而,HBM是一个不那么“东亚”的产业。它面临着极其严苛的技术竞争,以及随时摇摆的大客户。更多的变数,让韩国人始终无法稳稳占据铁王座。更何况,另一股东方的神秘力量,也在虎视眈眈。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。