(来源:纪要头等座)
1、GPU早期电源方案迭代解析
·早期电源方案形态对比:N100在2019年之前已完成开发,当时采用美国Micro公司的电源方案,通过两级电压转换实现供电:第一级将40-60伏不稳定直流电压转换为48伏稳定输出,第二级再将48伏转换为0.X伏,转换无变压器,变比较高。该方案由4个模块构成,安培功率在400-500瓦之间,两级效率分别达99%、97%,但模块成本较高,这是其被替代的核心原因。从Hopper一代开始,电源方案切换为VRM(电压调整模块)方案,该方案2003年起源于Intel CPU服务器领域,核心部件为控制器与Driver MOS,其中Driver MOS是将驱动与两个MOS管合封在一个芯片中。Driver MOS有5×6封装形式,电流等级涵盖70安培、90安培,Hopper一代主要使用90安培型号。在Hopper八卡服务器中,单张小卡需用约60颗Driver MOS,搭配3-4颗控制器,两者单颗市场单价均在1-2美金;整套服务器除8张小卡的Driver MOS用量外,底部大板需20几颗到30几颗,两个CPU板需50-70颗,构成完整器件用量配置。
·Driver MOS冗余与控制逻辑:Driver MOS在服务器中存在冗余设计,核心原因有二:一是AI服务器小卡散热条件有限,标称90安培的额定电流无法长时间满载运行,实际通常运行在20几安培;二是降压芯片效率曲线呈抛物线状,负载在20%-30%区间时效率最高,20几安培运行时效率达94-95%,满载90安培运行时效率仅80%+,为保障效率处于最优区间,因此设置冗余。控制器与Driver MOS的搭配需根据板上电源轨数量确定,单个控制器最多可输出8路,实际用量结合硬件配置调整。同时,控制器对Driver MOS具备动态控制机制:负载较大时开启全部相数以满足供电需求;负载较小时自动关闭部分相数,节省功耗、优化供电效率。
·Driver MOS开关频率特性:Driver MOS开关频率标称值可达1.5-3兆赫兹,但在GPU大功率场景中,实际运行频率通常控制在500-800千赫兹,因开关频率越高,芯片开通次数越多、损耗越大,运行效率越低。日常运行时,Driver MOS维持在较低开关频率区间以平衡效率与损耗;当负载突然增加时,多相Driver MOS交错开关,等效频率可提升,例如单相同步频率500千赫兹,十项叠加后等效频率可达5兆赫兹,以此满足瞬间提升的功率需求,兼顾供电稳定性与运行效率。
2、Blackwell与Rubin电源方案升级
·Blackwell电源方案配置详解:Blackwell服务器有两种形态:一是八卡形态服务器,单GPU功耗从700瓦提升至1.2千瓦,专用Driver MOS数量增加有限,单小卡为60-70颗,大板为20-30颗,整体形态无明显变化;二是NBL机架服务器,分为计算托盘与交换托盘,单个计算托盘配4个GPU加2个CPU,Driver MOS用量约300颗:CPU部分共20几颗,每个CPU约10颗;剩余280颗分配给4个GPU,折算后单GPU约70颗,电感与Driver MOS配置比例为2:1,即单GPU配35颗电感。整机用量上,NBL机架含18个计算托盘,对应Driver MOS总量为18×300=5400颗;9个交换托盘按单盘30颗计算,总量为270颗,整机Driver MOS总量约5700颗。技术层面,Blackwell与Hopper方案延续性强,均采用90安培Driver MOS,核心器件参数一致。
3、下一代电源架构技术展望
·高密度架构技术路径解析:下一代电源架构核心方向包括垂直供电、模块化方案、PCB埋嵌三种技术路径:a.商业化现状:模块化方案应用成熟,特斯拉Dojo2021年发布,2023-2024年量产,25个D1芯片封装于大腔体中,每个芯片背面由6个模块供电;AMD、AWS、Google及国内2024-2026年上市的AI初创公司等均采用模块化方案,多布局于正面;Intel的OAM卡采用离散芯片加电感方案,将电感移至模块背面解决布局问题。垂直供电可将供电器件或模块移至板子背面甚至主芯片底部,缩短供电距离以减少PCB损耗、提升端到端效率,但需做出妥协:正面模块高度可达9毫米,移至背面后需降至4-5毫米,会导致模块效率略有损失,同时需综合考量散热、高度限制、器件选型等因素。PCB埋嵌技术仍处研究阶段,虽可嵌入电容减小模块高度,但面临散热与可靠性核心瓶颈,1-3年内难以商用,当前更可行的路线是提升模块集成度或通过其他方式节省空间。b.优劣势对比:模块化方案集成度持续提升,从简单堆叠向嵌入电容、采用薄电感演进;垂直供电在效率优化上更具优势,但需平衡多维度因素;PCB埋嵌短期商用障碍显著。
·供电结构演进路径分析:不同厂商电源架构选择与芯片设计密切相关:a.厂商路线差异:英伟达凭借NVLink技术,可使GPU旁无需预留大量高速信号线布线空间,电源芯片能近距离布局,同时采用离散芯片加电感的回流焊方案,成本远低于模块化方案——AMD 500瓦方案采用24个模块,成本约200多美金,而英伟达离散方案中芯片单价1.5美金,电感单价0.8-1美金,整体成本大幅降低,因此英伟达在现有方案可行的情况下,暂不会转向模块化路线。b.技术落地难点:Interposer内部埋线技术实施难度极高,核心障碍为散热问题,与先进封装技术结合难度大;集成电压调节器(IVR)技术虽已在消费类低功耗CPU、英特尔三四百瓦CPU中商用,如苹果笔记本主芯片开关频率达十几兆,但要应用于3000多瓦的GPU中,技术仍不成熟,1-2年内难以商用。c.结构演进方向:当前多采用多级转换架构,未来有两种简化思路,一是简化为800伏直接转12伏,仍采用VRAM方案;二是保留48伏级,将其转至2-3伏左右,再通过芯片内部的IVR转至零点几伏,目前更具可行性的是第一种思路,后续再逐步过渡到高压转中压后用IVR转换的架构。
4、电源器件材料技术分析
·氮化镓应用前景剖析:a. 研发与产品进展:英特尔三四年前已研发出氮化镓Driver MOS技术,但未实现商业化应用;英诺赛科已推出可将十几伏电压转成零点几伏的氮化镓Driver MOS产品,但行业内主流模拟公司、芯片公司并未跟进该技术路线。
b. 替代硅基的核心障碍:当前12伏转0.7伏(GPU、Memory等芯片所需电压)环节采用硅基BCD模拟工艺,效率仅为94%左右,远低于PSU环节的97.5%、IBC环节的98%,氮化镓方案未解决该环节效率偏低的核心问题;此外,氮化镓开关频率高,会干扰大板信号完整性与电磁兼容,存在技术待攻克点;从性价比来看,模拟公司自研相关技术利润空间不足,采购英诺赛科产品也不具性价比,因此暂不具备商业化条件。
c. 适用场景与时间节点:预计2028-2029年,氮化镓在高压侧的成本可接近硅基,在800伏或正负400伏高压直流、固态变压器推广场景下,应用会逐渐增多;目前已有厂商将其用于高压侧转换,如800伏转12伏、800伏转50伏的拓扑中。
·碳化硅与氮化镓应用对比:a. 当前应用格局:在HVDC 800伏架构中,碳化硅用量更多,是当前的主流材料。
b. 替代趋势:随着氮化镓技术成熟、成本下降,未来其在高压侧的应用比例会逐步提升,有望部分替代碳化硅。
c. 混合应用方案与案例:已有厂商采用碳化硅+氮化镓混合技术实现高压转换,如罗姆推出采用氮化镓技术的相关方案,马碧塔斯主导用氮化镓实现800伏转48伏或12伏,采用碳化硅加氮化镓的混合应用,而非纯氮化镓技术。
d. 未来应用展望:在800伏或更高电压的高压场景下,氮化镓的应用会持续增加,与碳化硅形成差异化应用布局。
5、电源器件供应链格局解析
·海外厂商供应链布局梳理:a. 英伟达不同世代GPU的Driver MOS供应商迭代清晰:Hopper世代主要以NPS为主;Blackwell世代引入英飞凌、瑞萨两家供应商,LUBING世代仍维持这几家的使用格局;理想状态下三家供应商份额各约三成,但受各厂商(无论IDM还是Fabless模式)产能、供应稳定性等问题影响,实际份额难以精准确定。b. 其他ASIC或TPU厂商多采用模块方案,海外主流玩家包括与英飞凌合作的台达、与瑞萨合作的伟创力,以及自主研发模块为主的NPS,海外厂商TI也在布局相关模块方案;国内初创公司如南京能力新、上海配源、武汉杰恩迪也布局模块产品,试图切入海外供应链。
·国内厂商突围路径分析:a. 国内厂商杰华特的Driver MOS已实现多场景落地:70安培Driver MOS多年前已量产,应用于消费类笔记本(国内H公司采用该方案,英特尔也有意将其推广给国内其他笔记本厂商)和服务器领域,已取得部分商用成果;90安培Driver MOS作为当前主流产品,也获得小范围商用,如H公司有使用,但目前尚未进入海外大厂供应链体系。b. 国内厂商进入海外大厂供应链面临双重壁垒:一是客户合作关系壁垒,海外服务器厂商在迭代中倾向于沿用长期合作的海外供应商,若上一代供应链无问题则不会轻易替换;二是技术与验证壁垒,海外大厂对供应链可靠性要求严格,部分国内模块厂商能进入谷歌等企业的验证环节,核心原因是其创始人或技术骨干多来自台达等海外大厂,具备相关资源与技术积累。c. 电源器件价值量结构清晰且价格相对稳定:Driver MOS单价约1-2美金,除非技术有重大突破,否则价格难有大幅变动;AMD的24个模块总价约200美金,单模块单价约8美金,典型结构为2颗Driver MOS搭配1颗高端两相/三端电感,封装难度提升进一步推高了模块价值量。
Q&A
Q: GPUTDP发展过程中,与Driver MOS相关的变化如何?
A: N100采用Micro电源方案,通过两级电压转换,效率达99%、97%但模块成本较高;安培一代改用VRM方案,控制器为10/12/16项,Driver MOS采用5×6封装、90安培;HOPPER一代八卡服务器中,单张小卡用近60颗专用MOS,搭配3-4颗控制器,大板用20-30颗专用MOS,两个300-400瓦级CPU板用50-70颗专用MOS。
Q: 一张小卡配备的60颗DMOS是否为90安培规格?H100 GPU 700瓦功耗对应的高冗余来源是什么?小卡上HBM与核心GPU的供电配比大概是多少?
A: H100 GPU 700瓦功耗已包含HBM功耗,HBM与核心GPU的供电配比约为6:4或5.5:4.5。冗余来自两方面:一是90安培规格的专用MOS需良好散热才能长时间工作,而AI服务器小卡散热条件有限,实际电流需打折扣;二是专用MOS作为降压芯片,效率曲线呈抛物线状,在20%-30%负载下效率最高,若长期满负载效率仅80%左右,因此需预留冗余以保证高工作效率。
Q: 布60颗专用MOS时,DL控制器控制其开启数量的逻辑是什么?60颗专用MOS需4颗多相控制器芯片的情况下,多相控制器的分配方式及各芯片的任务是什么?
A: 多相控制器通常为两路,4颗最多可输出8路,其用量主要根据板上不同电源轨数量及控制器搭配方式确定。控制器与驱动MOS为成熟方案,会根据负载电流跳变需求自动调整开启数量——负载大时开启全部,负载小时关闭部分以节省功耗,实现自动化控制。
Q: 市面上专用MOS开关频率最高可达1.5兆赫兹,设计师设计芯片正常运行时通常会将频率降至多少?开关频率是否会持续维持该状态?瞬间提高功率时是否会提高开关频率脉冲?
A: 专用MOS开关频率规格书通常标注1.5兆、2兆甚至3兆,但GPU等大功率场景不会使用过高频率,因频率越高效率越低、芯片损耗越大,正常运行时通常降至500K或800K。负载增加时芯片会自动增加开通频率,例如控制器工作在十项模式下,负载大时全功率运行十项,电流小时关闭部分项以节省功耗,芯片具备自动化控制机制。
Q: BlackVue 与 Ruby 两代产品的变化情况如何?
A: BlackVue 包含八卡服务器与 NBL 汽车机架两种形态,八卡服务器 GPU 功率从 700 瓦提升至 1.2 千瓦,专用MOS增加至六七十颗,大板配置二三十颗;NBL 汽车机架分计算托盘与交换托盘,计算托盘专用MOS约 300 颗,整台机架 18 个计算托盘对应 300×18=5400 颗,9 个交换托盘对应约 270 颗,合计约 5700 颗,采用与 Hopper 一致的 90 安培 drMOS 方案。Ruby 于 25 年 10 月华盛顿 GTC 大会由黄仁勋展示,芯片功率从 1.4 千瓦提升至 2.3 千瓦,专用MOS从 300 颗增加至 360 颗;CPU 从 Grace 更换为 Vela,功耗增加有限;MOS 规格升级至 100-110 安培;360 颗中二十几颗用于 CPU,约 340 颗用于 GPU,每个 GPU 约八十几颗;NBL 72 计算托盘 18 个对应 360×18 颗,交换托盘数量增加不多,可按三十几×9 计算。
Q: 从Hopper到Blackwell再到Roping,功耗依次为700瓦、1200瓦、2300瓦,单颗GPU使用的抓moss数量从约60多增加至80多,但抓moss参数规格均为90安培,电流增长较快但数量未匹配增长,核心原因是否是单颗抓moss运行电流变大?
A: 原因主要是散热设计优化,从早期风冷到后来80%液冷,再到Roping的100%液冷,不断提升散热环境,使抓moss能运行在更高效的温度,从而单颗抓moss可承载更高电流;同时板上空间有限,无法无限增加抓moss数量。
Q: AI芯片继续迭代过渡到未来架构的背景下,从技术角度看下一代方案可能的变化及是否可能提高集成度?
A: 从其他公司AI芯片情况来看,解决布局空间不足、提高集成度主要有两种思路:一是将芯片加电感加部分电容做成3D模块,如AMD在GPU正面用二十几颗或三十几颗模块供电,通过3D模块减少面积;二是采用背面供电或垂直供电,如Intel将电感放到OAM模块后面,将部分器件挪到板子背面。
Q: 水平供电转垂直供电及做成模块两种方案目前是否已商业化或仍处于前沿探索阶段;针对垂直空间利用,目前将模块放置于板背面的情况下,是否有探索将模块埋嵌至PCD内部的方案及该趋势看法如何?
A: 模块应用最早由特斯拉Dojo采用,2021年发布、2023-2024年量产,技术已成熟;AMD、AWS、Google及国内AI初创公司多采用模块方案。模块从正面转向背面或芯片底部,旨在缩短输出端至用电端距离以提升效率,但放置背面需将模块高度从约9毫米降至4-5毫米,会轻微损失效率,且需综合考量散热、高度限制及器件选型等因素。
Q: 未来有没有可能把整个模块塞到一个大的PCB里面去?
A: 模块集成度逐步提高,从传统PCB堆叠Drive MOS、电感、电容的简单加工,发展到将电容嵌入PCB、使用更薄电感以降低模块高度、提升带载能力及电流密度,2022年至今已历经1-2代迭代。目前研究机构及高校虽在开展将模块塞入大PCB的研究,但模块需承载大电流且未来电流等级将提升,存在散热难问题;即使解决散热,长期使用会导致PCB大板翘曲、弯曲等可靠性问题,行业从业者认为1-2年内不可能,2-3年也有困难。目前可行路线为提升模块集成度或通过其他方式节省空间以容纳更多模块。
Q: 英伟达芯片当前进展如何?其单颗算力或功率最大的芯片为何发展速度不及包括ATC芯片在内的其他友商?
A: 英伟达芯片架构采用NVLink技术,其GPU旁高速信号线无需预留过多空间,可将PCB空间让渡给电源以实现充分利用。其他友商因需规避英伟达专利费用,加入OCP组织并遵循其标准采用模块方案;而英伟达采用芯片加电感的理想方案,通过回流焊完成组装,成本远低于模块方案,因此坚持该方案,这也是其高算力高功率芯片发展速度不及其他友商的原因。
Q: 垂直供电后,埋置在PCB板或interposer层的两种方式中,interposer内部埋线是否需较长时间实现?
A: Interposer内部埋线难度极高,无论埋置在大板还是主芯片的PCB处,因未来芯片功率加大,Intel、台积电等采用的芯片级背面供电已需占用空间,将其与Co-Works或Co-Work P封装结合难度极高。未来供电或采用integrated voltage regulator方案,核心问题在于热管理难以解决,而非封装难度。
Q: Ruby Ultra下一代是否会采用垂直封装形式,还是大概率继续使用水平供电?
A: 从鲁炳到鲁炳Ultra,功耗从2300瓦提升至3600瓦,虽有增加但仍可控。预计其下一代可能借鉴Intel方式将部分组件置于背面,不会完全采用模块化设计,或仅部分使用模块。
Q: 垂直供电解决芯片最后一厘米距离问题,下一代供电结构是否会发生变化?Rubin一代为800V转56V再转12V再转0.8V,是否会在二次和三次级使用48V转1V的模块?该过程中低占空比、死区时间占比提升的问题如何解决?Rubin Ultra一代是否会有48V转1V的架构?
A: 小功率实现48V转1V无太大问题;鲁宾或英伟达系列目前认可800V转48V再转12V再转零点几伏的方式,未来可能变为800V转12V再转零点几伏;另一种思路是保留48V级,转成1-2V后通过芯片内IBR方案转零点几伏;目前更可能采用VRAM方案,未来才会过渡到高电压转2-3V再往下转的方式。
Q: 800伏转12伏是否意味着去除主板上的IBC模块,通过电源柜完成更大幅度降压以节省空间?
A: 这种方式不可行,因12伏在500千瓦或更高功耗机柜中损耗极大,需尽量靠近负载点。更可能的方式是800伏直接进入计算托盘,托盘内设置多个800伏转12伏模块,再转为GPU、Memory、BlueTooth等芯片可用电压,需模块足够小且靠近负载。目前多家电源芯片公司已展示800伏转12伏方案,但未标准化,可能26年定标准,27年底或28年大量使用。
Q: 800伏转12伏方案由PSU厂商还是二次三次电源厂商实施?
A: 800伏转12伏方案属于二次三次电源范畴,因放置在计算托盘底部,通常打散为方案级别而非单一模块,具体取决于计算托盘厂商的设计及主芯片厂商的选择;台达、光宝、麦格米特等模块厂商也可参与,该领域门槛不高。
Q: 高频开关场景下硅基MOS管存在性能上限,市场关注氮化镓是否会在未来doctor moss中替代硅基MOS管、NPS等厂商的氮化镓方案是自研+代工厂模式还是采购英诺赛科等厂商的成品MOS,以及氮化镓相对于硅基MOS管的价值量变化如何?
A: 12伏转0.7伏的三次电压转换目前采用硅基BCD模拟工艺,氮化镓技术虽能提高开关频率,但未解决12转1伏效率低及高频干扰导致信号完整性、电磁兼容等问题,英特尔三四年前研发后未商用,行业内模拟公司暂无采用该技术的计划,因自身具备技术且采购性价比低;氮化镓更多应用于高压环节,其成本及导通阻抗随生命周期变化等问题正逐步解决,行业机构预计2028-2029年高压环节氮化镓成本将接近硅基,未来800伏、正负400伏或固态变压器推广时,氮化镓应用会逐步增加。
Q: 目前多数PSU中氮化镓多应用于低压侧450伏产品,未来氮化镓是否可能应用于偏高压侧并实现更耐高压?
A: 目前已有厂商采用氮化镓技术实现800伏转12伏或50伏等拓扑,如罗姆的方案;马碧塔斯则采用碳化硅加氮化镓的混合应用实现800伏转48伏或12伏。
Q: 当前HVDC 800V架构中碳化硅用量较多,未来氮化镓是否更可能替代碳化硅?
A: 是的,未来氮化镓替代碳化硅的比例会逐渐增加。
Q: CSP厂商的GPU供应链中各厂商的份额分配情况如何?比如英特林、NPS的份额是多少?
A: 英伟达方面,Hopper一代主要以NPS为主,Blackwell引入英飞凌、瑞萨两家厂商;具体份额不便披露,理想状态下三家各占三成,但因产能问题份额难以确定;LUBING仍使用这几家厂商。其他ASIC或TPU厂商多采用模块,模块主流玩家包括与台达合作的英飞凌、与伟创力合作的瑞萨、自主研发的NPS,还有姆拉塔、TI等厂商;国内南京能力新、上海配源、武汉杰恩迪等初创公司也在做模块。
Q: 如何看待杰华特进入海外大厂供应链的能力?
A: 杰华特分消费类笔记本与服务器两大市场布局。消费类笔记本领域,国内H公司已采用其方案,英特尔认可并推动其进入国内笔记本厂商,但尚未进入海外大厂;服务器领域,其70安培专MOS已量产多年并实现部分商用,90安培已有小部分厂商采用,如供应链要求较高的国内H公司。
Q: 国产厂商进入海外大厂供应链的难度主要在哪些方面?是器件能力不足还是客户关系问题?
A: x86服务器市场通常延续上一代供应链,以海外为主;当前英伟达、谷歌、AWS等的服务器方案仍以海外为主。个别国产模块厂商虽被谷歌考虑,但需用海外专有MOS保证性能;谷歌选择这些厂商是因为其团队来自台达,而谷歌与台达工程师有合作关系。综上,器件性能可靠性及客户关系均为重要影响因素。
Q: Doctor moss当前价值量约1-2美金,未来随设备垂直供电方案应用或自身能力提升,价格是否有上行空间?
A: x86市场遵循摩尔定律,产品换代后价格与上一代差异小;AI技术变化快但换代周期约两三年,成本增加有限,且竞争充分,因此除非技术有重大突破,否则Doctor moss价格不会有大幅变化。
Q: RVR集成电容电感模组中,AMD 24颗对应200美金,其价值量中电容电感、抓握IC、mosfet的占比情况如何?
A: 电容成本暂不明确;理想电感成本为几毛钱至1美元,模块级电感因技术更领先,成本更高。
Q: IVR中专门与电感的配比关系如何,是否为1:1或1:2?
A: 最典型的配比为两个专门配一个电感,该电感为两相或三端电感。
免责申明:以上内容不构成投资建议,以此作为投资依据出现任何损失不承担任何责任。
>>>查看更多:股市要闻