谁能卡住英伟达的脖子?

谁能卡住英伟达的脖子?,作为一个与计算机科学共同成长起来的产业,散热模组厂商们经历了多次电子信息革命,但当下AI的爆发,似乎才真正让这个行业真实现了“翻身”。

生成式AI的风口下,一些行业正在“闷声发大财”。

从今年2月开始,中国台湾厂商AVC和双鸿(AURAS)股价一路飙升,在端午假期前的最后一个交易日,两家公司的股价较4个月前均实现翻倍,分别收报249.5新台币(约合58.1元人民币)及292.5新台币(约合68.1人民币)。

如果对照芯片巨头英伟达(NVEDIA)近期股价走势,会发现三者之间存在着惊人的一致性——这家芯片巨头公司同样在这4个月内时间实现了股价翻倍。

这显然不是巧合。

实际上,上述两家位于中国台湾地区的公司,或多或少与英伟达有关,确切地说是与生成式AI相关。AVC是全球*散热模组厂商,也是英伟达AI服务器系统DGX H100目前的风冷散热系统供应商,双鸿则是Supermicro(超微电脑)服务器散热系统的供应商。

散热,这个过去不被人们重点关注的产业,正由于AI带来的数据量和计算量的爆发增长逐渐从幕后走向台前,多位从业人士向虎嗅表达了这样一个观点:“今明两年,AI行业中可能会出现算力被散热‘卡脖子’的情况。”

6月15日,在AMD发布APU(加速处理器)MI 300系列后,AMD股价由于受到“缺少大客户”的质疑下跌3.6%,但就在同一日,AVC与双鸿的股价却因AI芯片出现新玩家的利好应声上涨5.8%和3.6%。

作为一个与计算机科学共同成长起来的产业,散热模组厂商们经历了多次电子信息革命,但当下AI的爆发,似乎才真正让这个行业真实现了“翻身”。

AI的尽头是散热?

当电流通过电阻时,所消耗的电能会全部转化为热能,这种现象被称为电流的热效应,自计算机诞生以来,从业者们用尽办法将电子器件的温度控制在合理的范围内。

当然,早期的计算机功耗较低,而且整机体积较大,因此不需要单独设计系统级的散热解决方案,通常做法就是在计算机背部放置个简易的风扇,以将热流导出。

1989年,英特尔发布了80486处理器,人类*次实现了在微处理器中集成百万级晶体管,这枚芯片的功耗也水涨船高,在芯片出厂时,英特尔为其配备了一组铝制的散热片,再配合机箱上的风扇完成整体散热。

以今天的视角来看,这种方案还是很简陋,但它勾勒出了散热设计*层的原理:先导热,再散热。简单地来说,导热就是将热量在介质中传送,散热就是让热量尽可能快地从介质向外界散发。

传统的服务器散热方案与计算机散热原理大致相同,区别在于服务器所使用的算力芯片由于能耗较高,往往将芯片级散热系统作为重点,通常来说就是将芯片热量通过热管、均热片等传导到多褶结构的散热鳍片上,再通过风扇进行主动散热。

传统服务器散热器,与台式机基本一致。图片来源:中关村在线

不过,这种风冷式散热方案在当前AI服务器上的表现已经明显力不从心。

原因在于高性能AI芯片的功耗在随着算力同步大幅提升。10年前市面上能买到的最*的数据中心GPU是英伟达K40,其热设计功耗(TDP)为235W,2020年英伟达发布A100时,热设计功耗接近400W,到了最新的H100芯片,热设计功耗直接飙升到700W。

国内散热技术厂商广州力及热管理科技(NeoGene Tech)创始人陈振贤向虎嗅表示,到了明年,单颗高性能AI芯片的热设计功耗将会突破1000W。

那么风冷式散热对应的散热极限是多少?国金证券研究所的一份报告指出,服务器2U空间下,250W大约是风冷的极限,4U以上空间风冷可以解到400W-600W。

这里需要普及下“U”的概念,这是美国电子工业协会制订的标准化尺寸,1U服务器的宽度为48.26厘米(19英寸),高度为4.445厘米(1.75英寸)。通常情况下,标准服务器机柜的高度为42U,但这并不意味可以容纳42枚1U服务器,因为过大的密度会增加散热负担。

而如果使用英伟达H100芯片的话,在使用风冷散热模组方案的情况下,就需要用到4U的机柜。

因此,为了提高单一机柜的功率密度,数据中心近些年开始普遍使用液冷方案。其大致可以分为两种技术路径:冷板式(Cold Plate)与浸没式(Immersion),前者是通过冷板将发热器件的热量间接传递给封闭在循环管路中的冷却液体,后者则直接将发热器件以及电路板整接置于液体中。与空气介质相比,液体的导热率更高、比热容更大、吸热能力也更强。

另外在运营成本上,液冷散热也有较大的优势。传统风冷散热将服务器芯片热量吹到数据中心机房内,这要求机房空调温度必须大幅降低,一位业内人士向虎嗅透露,台积电的数据中心温度常年维持在零度左右。而液冷散热模组的设备虽然较为昂贵,但大多属于一次性成本,后续的能耗成本可以大幅降低。

但这并不意味着目前液冷散热技术就是一种万全之策,陈振贤指出,在现有要求降低PUE(指数据中心消耗的所有能源与IT负载消耗的能源的比值)的限制下,既有的冷板式及浸没式液冷技术也都纷纷面临着解热极限的问题。

中科创星董事总经理卢小保也向虎嗅表示,目前无论是风冷还是液冷散热方案,都进入明显的发展瓶颈期,未来热管理相关技术可能会成为AI芯片性能释放的决定性限制因素。

破局点在哪里?

尽管业内目前还没有出现公认的“*解决方案”,但市场对于AI服务器的需求不会因此陷入停滞。

第三方研究机构TrendForce发布的预测指出,2023年AI服务器(包含GPU、FPGA、ASIC等主芯片)出货量将接近120万台,同比去年增长38.4%,而AI芯片今年出货量将增长46%。

有业内人士向虎嗅表示,在今年的AI服务器市场中,英伟达A100与A800的出货量将可能会占据80%,而随着下半年数据中心陆续导入热设计功耗高达700W的H100芯片后,行业内既有的散热技术可能都需要进行一次“推倒重建”。

卢小保认为,传统的风冷式散热方案并不是完全没有开发空间,但前提是导热器件必须进行升级换代,比如引入环路热管技术。

目前芯片级风冷散热模组中,导热器件主要以热管为主,它的主体是一根封闭、中空的金属管,内部有少量工作介质(主要是纯水)的毛细结构,运行时依靠介质蒸发吸收芯片热量,再由风扇将热量吹走。

from clipboard

热管工作原理,图片来源:antpedia

而环路热管在保留上述特性的同时,导热能力增加几倍,而且导热距离更大,可以传递到一米以外甚至理论上可以传导到十几米以外,这是该技术在卫星上已经实现的效果。

“如果环路热管能做到数米远,就意味着可以直接将服务器芯片的热量导出到数据中心外部,连机房温度的问题都解决了”,卢小保指出。

不过作为一种航天工程的衍生技术,要在地面环境下落地应用,技术难度极高,虽然学术界和工业界都有很多团队在从事这项技术的研发,但真正具备落地商用能力的极少。

同样,液冷散热方案也具备升级迭代的潜力。比如结合将冷板与浸没式散热的技术特点相结合,在传统的1U或2U机柜槽中接入冷板,再接入浸没散热用的单向冷却液,以实现双重冷却循环。

据外媒Electronics Weekly报道,前不久美国能源部(DOE)立项了一个名为COOLERCHIPS的研究计划,䃼助英伟达5百万美元开发此项混合液冷技术,利用两相冷却液作为冷板的内循环,非导电冷却液体则是被直接注入服务器中做循环。

陈振贤表示,NeoGene Tech亦自主研发了一种更先进的具有三重液冷循环之服务器装置技术,将具备更高功率芯片的散热及散热能力,而且无需价格昂贵的两相冷却液作为循环,在运营成本上将更优。

此外,NeoGene Tech还基于冷板式液冷技术开发了一种被称为牛劲冷泵(NeoGene Liquid Cooler)液冷散热器产品,整体高度已经压缩至24.5mm,可以满足数据中心1U服务器机柜的超高密度布建需求。其*特点是可通过内部三维蒸气腔的功能设计,根据芯片功率及功率密度做出解热及散热的功能调整。

陈振贤指出,1U的牛劲冷泵液冷散热器已经可以服务TDP超过1000W的高算力芯片。

from clipboard

1U规格的牛劲冷泵液冷散热产品,图片来源:NeoGene Tech

以上提到的技术方案,都是基于过去散热模组的迭代,那么是否存在一种技术,可以直接在芯片上做文章?

在今年3月,NeoGene Tech曾公开了一个针对高功率芯片封装的散热方案:直接将裸芯片和牛劲冷泵液冷循环系统封装在一起工作。

陈振贤向虎嗅表示,“在这个技术路径下,散热模组不再是芯片外部的独立器件,它本身就是IC元件的一部分,可达到即插即用(Plug&Play)的目的”。

这项散热封装技术若再搭配具有三重液冷循环之服务器装置技术,能够为数据中心省去所有的二级、三级散热系统,只需将自我浸没式服务器插入机柜内, 再接入水管及非导电冷却液管就可以直接使用。当然,该方案对先进封装工艺有一定的要求。

另一种直接在芯片上做散热的技术,也与封装工艺紧密结合,那就是Chiplet。

简单地来说,就是将一个单颗SoC芯片的功能拆分成众多小芯片,然后运用先进封装技术重组成一个庞大复杂的系统。从芯片散热的角度来说,Chiplet不会使芯片整体功率降低,但在拆分后的表面积会增加,也就是说同等热设计功率下,单位面积内热流强度会降低。

从这里也可以看出一个趋势,那就是在AI芯片算力与能耗大幅提升的背景下,芯片散热问题,或者说热管理问题,已经不再是一个独立的学科,而是更加趋近于系统性工程,未来AI芯片的天花板,或许真的取决于散热技术的发展水平。

(0)
小多多的头像小多多创始人

相关推荐

  • 日均语音在线时长破2亿分钟 KOOK持续发力游戏语音服务_行业动态

    近日,基于实时语音交流功能的平台型社群产品KOOK每日用户总语音时长正式突破2亿分钟,每日活跃用户突破百万,在游戏语音赛道展现出活跃生命力。…” />
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8

    创投 2023年3月28日
  • 重仓中国,他们逆势投了100亿

    重仓中国,他们逆势投了100亿,作为一家专注于医疗健康行业投资的资产管理公司,这家PE为LP提供了医疗全产业周期的产品服务,全面覆盖了PE(孵化、Buyout)、瑞桥信贷基金、康桥医疗健康产业设施平台与健桥成长型基金。

    创投 2023年5月4日
  • 特斯拉的「大空头」,是马斯克那张嘴

    发起“价格战”近一年后,特斯拉今年三季度多项业绩指标大幅下滑,低于外界预期。美东时间10月18日,特斯拉公布第三季度业绩。今年三季度,特斯拉营收233.5亿美元,分析师预期为240.6亿美元;毛利率17.9%,分析师预期分析师预期18%;GAAP口径下净利润为18.53亿美元,同比下滑44%,市场预

    创投 2023年10月19日
  • 打造苹果保险+期货项目,中华联合财险值得选择_行业动态

    苹果是一种非常常见的水果,其甜美的味道和多种营养成分使其成为人们喜爱的选择。美味的苹果离不开农户的新品种植,为了更好地给苹果种植农户带来保障…” />
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8

    创投 2023年8月7日
  • 14500亿,世界首富又换人了

    14500亿,世界首富又换人了,曾经有人用顶天立地来比喻高端市场,用铺天盖地来比喻低端市场,并且得出一个结论:顶天立地,不如铺天盖地。

    创投 2023年4月9日
  • 国产汽车零部件估值爆涨之谜

    国产汽车零部件估值爆涨之谜,汽车零部件企业仍然需要保持清醒头脑,合理运用资金,规避风险,并追求可持续增长。同时,政府和监管机构应加强监管和引导,以防范市场泡沫和风险,推动汽车零部件企业的健康发展。

    创投 2023年5月25日
  • 京东和商家打架,为什么李佳琦会被「创飞」?

    “瘦死”的李佳琦比京东大。谁能料到,今年的双11竟是由一场血雨腥风的三方大战拉开了序幕。先来简单梳理下事件发生的经过。10月22日,京东开启双11之前,为了争取产品的全网*价,将电器品牌海氏一款烤箱的大促优惠价进行下调。海氏表达抗议后,京东采销选择封锁海氏后台权限,并在随后将烤箱价格再次改成五折。海

    创投 2023年10月25日
  • 蔚来的「百亿补贴」,李斌的妥协

    蔚来的「百亿补贴」,李斌的妥协,蔚来用以换取降价的服务中,很大一部分来自于换电服务,而换电模式,正是蔚来当前成本结构中最大的负担之一。‍‍‍‍

    2023年6月14日
  • 农村有商机的项目有哪些 可以多多参考以下几个

    现在很多人都发现了农村的经济水平是越来越高了,所以都想寻找一些在农村很有商机的项目赚钱,接下来就给大家简单找几个值得关注的项目好好聊聊! 第一个推荐的项目还是开设农家乐,部分城里人…

    创投 2022年1月25日
  • 碳化硅:为电动车降本之前,先为自己降本

    碳化硅(SiC)上一次被送上热搜,还是今年3月特斯拉宣布单车减用75%的碳化硅。这个由特斯拉一手带起来的产业,也因马斯克一句话差点塌房,全球碳化硅龙头Wolfspeed今年股价已跌去三分之二。Wolfspeed与碳化硅概念股的暴跌,主因肯定是特斯拉的背刺,但市场的悲观情绪发酵也少不了错误解读的推波助

    创投 2023年12月8日
  • 产业基金接连出台,空天信息赛道机会来了

    产业基金接连出台,空天信息赛道机会来了,多地抢滩万亿“空天信息”赛道。面向浩瀚星辰,机会无限大,城市冲刺空天信息第一极的第一幕正开启。

    2023年5月12日
  • 年轻人的电子烧香:命运的齿轮开始转动

    年轻人的电子烧香:命运的齿轮开始转动,或许是这种站在上帝视角故作玄虚的“鸡汤体”重复出现触发了逆反心理,早期的视频里没有那么多出自本人的真情实感,大家只是套用相同的文案,讲述不同的成功故事。

    创投 2023年7月22日
  • 中国「拯救」雅诗兰黛?

    雅诗兰黛正在抱紧中国的大腿。旗下品牌悦木之源的“灵芝薄皮速修精华”率先在中国上市,一改往日“海外尝鲜,国内苦等”的作风。被中国消费者诟病的“品牌老化”上,也开始听劝,上半年一口气推出两款重点新品,赶上前2年全年的出新数量。各项业务都更急切拥抱中国,高级手工香水品牌Le Labo 首店(上海)开业当日

    2023年8月21日 创投
  • 困在暴食流量里的「电子小猪」

    那位一顿能吃102个馒头、被网友称为“电子小猪”的博主,疑似翻车了。过去半个月内,抖音百万粉丝博主“二狗很忙”遭遇了一场观众信任危机。有网友扒出,这位博主“食量惊人却怎么吃都不长胖”的人设,其实是靠假吃和剪辑塑造的。质疑声中,她一边开直播吃自助,一边删除争议最多的部分视频,然而,观众并不买帐。截至目

    2023年10月9日 创投
  • 黄仁勋管理万亿英伟达的疯狂方法

    今年最为风头无两的半导体公司,无疑是市值已超1万亿的英伟达。让人没想到的是,老黄居然有着特别、甚至说是近乎疯狂的管理方式:没有计划、没有汇报、没有明确层级。曝光称:他直接管理40名下属,信奉扁平化就是力量;等人汇报就晚了,要对公司这个系统做“随机采样”;信息全透明,上至VP下至初级员工可以参加任何会

    2023年9月15日 创投