黄仁勋的身份已不再单单是一家市值万亿美元企业的CEO,他代表着一种“符号”,即一个大模型时代之下AI终局的未来走向。
文丨智驾网 王欣
时隔5年,英伟达的GTC终于回归线下。
北京时间3月19日凌晨4点,在美国加州的心脏地带圣何塞SAP体育中心,英伟达CEO黄仁勋登台,发表了GTC 2024的主题演讲。
整个硅谷都在屏息以待,整个万人的冰球体育馆坐无缺席,容纳着从科技到自动驾驶、再到机器人等不同行业背景的从业者、技术开发者、投资人等,万里奔赴来硅谷集体见证——这家“AI风向标”构建的通用人工智能未来脉络走向的狂欢时刻。
开场时,身穿皮衣的亚裔男性黄仁勋打趣道:“你要意识到,这不是一场演唱会,而是一个开发者大会”。
在AI技术与AI应用以爆发速度的发展之下,促使英伟达成为眼下最大的赢家。从一款APP再到一部消费电子产品,背后是英伟达涵盖整个AI领域的技术研发与98%的市场份额。黄仁勋的身份已不再单单是一家市值万亿美元企业的CEO,他代表着一种“符号”,即一个大模型时代之下AI终局的未来走向。
英伟达如同一面多棱镜,能照进外界不同行业领域对发展AI的信心与现实。
截至2024年1月28日,英伟达第四季度收入为221亿美元,较上一季度增长22%,较去年同期增长265%。2024财年收入增长126%,达到609亿美元。
凭借A100、H100等GPU核弹,让英伟达从去年至现在的15个月内市值暴涨6倍,曾一度超过2万亿美元,位列在继苹果和微软之后的全球第三大科技公司。从某种意义上看,他当然算得上是AI圈的“摇滚巨星泰勒”。
今天首日GTC结束后,英伟达当天股价收盘小跌1.76%。而面对股价每天都在创新纪录的英伟达,资本市场的分歧开始显现:瑞穗证券分析师Jordan Klein试图给市场降温,在报告中提醒道“英伟达股价有点不健康,这让我想起1999年和2000年疯狂的科技市场心态”,花旗同样在报告中指出“英伟达面临的回调风险正在加剧”。
福布斯媒体并不这么认为,称:“任何一直想知道英伟达是否会失去竞争优势的人都应该放心,该领导者将继续保持领先地位。”
GTC 2024将在3月18日-21日(美国时间)期间提供超过900多场会议、300多场展览、20多场涵盖生成式AI等内容的技术研讨会。在今天首日这场长达2小时的开场演进中,黄仁勋从硬件、软件,服务上介绍了英伟达的“新引擎”,点燃了每一个人对英伟达生成式AI应用新生态的好奇最高阈值点。
他在这次GTC发布的重点是:
生成式AI是新的产业革命。
硬件上,发布新Blackwell架构, 以及GB200组合芯片,将提供4倍于Hopper的训练性能,大模型参数达到了万亿级别,这也是此次GTC 最大看点。
为了将AI带入物理世界,还介绍了数字孪生产品Omniverse Cloud,Omniverse可以将机器人、无人驾驶和数字孪生的训练和应用融合在一个平台之中。
以及机器人平台lsaac的更新,包括Isaac Perceptor感知SDK和Isaac Manipulator机械臂控制库。同时宣布面向人形机器人的Jetson Thor计算机和Project GR00T通用基础模型。
观看GTC演讲,满足人们对构思AI的绚烂想象是一方面,重点是还可以跟黄仁勋学"讲故事"——Keynote。
去年的GTC,黄仁勋说出了:“The iPhone moment of AI has started”(AI的IPhone时刻已经到来),今年的GTC,黄仁勋继续向世界说出更加醒聩震聋的一句:“The future is generative”(未来是生成的)。
我们将还原以黄仁勋自述口吻在GTC 2024主题演讲的重点内容,智驾网在不改变原意的情况下,经编译整理,有删改:
01.
Blackwell:
“如果你用Blackwell来做,只需要2000个GPU、四兆瓦的电力”
Blackwell以美国数学家和博弈论学家David Blackwell命名,继承了Hopper GPU架构,拥有2080亿个晶体管,是英伟达首个采用多芯片封装设计的GPU,在同一个芯片上集成了两个GPU。
Hopper 很棒,但我们需要更大的GPU。Blackwell并非芯片,而是一个平台名称。虽然我们制造GPU,但现代GPU的形态已大为不同。Blackwell系统的核心正是这种新型GPU,而在公司内部,我们仅用数字来指代它。简而言之,Blackwell是当今世界上最顶端的GPU。
左边是Blackwell GB200 GPU,右边是Hopper GH100 GPU,可以明显看出大小。
作为一个超大规模的芯片,GB 200通过900GB/s超低功耗的片间互联,将两个GB200 GPU与Grace CPU相连。
新的GB200 GPU有2080亿个晶体管,提供高达20 petaflops的FP4算力。将其中两个GPU与单个Grace CPU相结合的GB200,可以为LLM推理工作负载提供30倍的性能,同时还可以大幅提升效率。
在具有1750亿个参数的GPT-3 LLM基准测试中,GB200的性能是H100的7倍,训练速度是H100的4倍,更令人惊叹的是,每个GPU的推理吞吐量提高了三十倍。
现在,我们来看一下Blackwell在实际运行中的表现。
想象一下,训练一个1.8万亿参数的GPT模型,如果使用传统的安培芯片,大约需要25000个,耗时三到五个月。而改用Hopper,虽然只需要8000个GPU,但仍需15兆瓦的电力,并且训练周期为三个月。
然而,使用Blackwell平台,我们仅需2000个GPU,同样在90天内完成训练,但电力消耗仅为四兆瓦。这不仅大幅降低了成本,而且显著提高了能效。
简而言之,Blackwell以其卓越的性能和效率,为训练大型AI模型提供了更经济、更环保的解决方案。
得益于新的、更快的第五代NVLink,Blackwell能够扩展至576个GPU(H100扩展至256个)。包括的第二代Transformer引擎采用FP4精度,以及一个比以前快20倍的解压缩引擎,都为性能提升做出了贡献。
Transformer引擎这项技术允许每个张量在最优精度下进行计算,现在精度可达FP4。这意味着,如果一个竞争对手的GPU有相同数量的Flops,由于Transformer引擎的作用,我们的Blackwell在推理处理上可能会快两倍。
大部分的市场推广力量并不是集中在Blackwell GPU上,而是集中在一个称为GB200的三芯片超级芯片上,它由两个Blackwell和一个Grace Arm CPU组成。
这种与Grace-Hopper芯片1-1比例不同的做法非常有意义,因为对于GH200来说,Grace的I/O和计算带宽足以管理两个Blackwell,即四个GPU。
支持NVLink的GB200 NVL72机架包含72个Blackwell GPU和36个Grace CPU。这个单独的机架就能训练一个27万亿参数模型。当然,大多数为此设计的AI工厂会使用多个机架来更快地训练如此庞大的模型。
我们在AWS托管的Ceiba AI超级计算机现将由20000个GB200 GPU组成,而不是最初宣布的16000个H100。
我们不缺客户,GB200目前客户包括,亚马逊、谷歌、微软和甲骨文,都已经计划在其云服务产品中提供NVL72机架。
GB200 NVL72液冷机架系统,其中包含 36 颗GB200 Grace Blackwell Superchips,这与我们当前的H100 GPU相比,该系统的推理工作负载性能提高了30倍。
Blackwell GPU和GB200超级芯片无疑是我们在AI训练和推理方面的新的顶级领导者,也将被引入云平台NVIDIA DGX B200系统中,用以模型训练、微调和推理。所有NVIDIA DGX平台均包含用于企业级开发和部署的NVIDIA AI Enterprise软件。
回顾过去八年,我们的计算能力实现了惊人的1000倍增长,远超摩尔定律预测的速度。要知道,在PC革命的黄金时期,每10年性能才提升100倍。然而,我们仅用了八年时间就实现了1000倍的增长,并且未来两年还有望继续扩大这一优势。简而言之,Blackwell平台正引领着计算性能的革命性飞跃,为未来的科技发展奠定坚实基础。
02.
加速新产业革命:
“A new industry has emerged”
回顾历史,英伟达发展史上的几个里程碑事件,比如1993年英伟达成立,2006年研发CUDA,以及2012年的AlexNet构成的人与AI的第一次接触。
2006年,CUDA计算模型诞生,我们当时便预见其革命性潜力,期待其迅速走红。然而,真正的突破发生在近20年后的2012年,当AlexNet AI与CUDA首次融合。到了2016年,我们深刻认识到这一计算模型的重要性,于是推出了全新类型的计算机——DGX1,其计算力高达170 teraflops。在DGX1这台超级计算机中,八个GPU首次实现了互联。
2016年,我们将首台超级计算机DGX-1交付给了位于旧金山的一家初创公司——OpenAI。
DGX1作为首台AI超级计算机,其170 teraflops的计算力引领了AI技术的新篇章。从2017年,Transformer的出现到2022年ChatGPT惊艳全球,人工智能的重要性和能力日益凸显。2023年,生成式AI崭露头角,催生了全新的行业。这是因为我们现在使用计算机编写前所未有的软件,它们以全新的方式生成token和浮点数。
这如同工业革命初期,人们认识到工厂和能源的力量,创造出电力这一无形但极具价值的资源。如今,我们正通过基础设施“工厂”生成新型电子——token,创造出了极具价值的人工智能。这标志着一个新行业的诞生。
“A new industry has emerged.”
03.
“Omniverse and DRIVE Thor”
未来,动态实体将普遍实现机器人化,包括类人机器人、自动驾驶汽车等各类设备。
这些机器人系统需要在大型场所如体育场、仓库和工厂中高效运作。为了协调和管理这些复杂的机器人生产线,我们需要一个统一的平台——数字孪生平台Omniverse,作为我们机器人世界的操作系统,正是这样一个平台,它提供了必要的基础设施来支持机器人系统的集成、协调和优化。
今天,我们宣布Omniverse Cloud能够流式传输至Vision Pro,用户可轻松进入Omniverse的虚拟世界。Vision Pro与Omniverse的无缝连接,结合众多CAD和设计工具的集成,为用户提供了前所未有的工作流体验,叹为观止。
未来的趋势是所有能动的东西都将实现机器人化,这会带来更高的安全性和便利性。
汽车行业作为重要的应用领域之一,我们正在构建基于计算机系统的机器人技术栈,包括自动驾驶汽车和即将在奔驰及捷豹路虎车辆上应用的自动驾驶云程序。这些自主机器人系统完全由软件定义,展现了技术的无限潜力。
集中式车载计算平台DRIVE Thor将搭载专为Transformer、大语言模型(LLM)和生成式AI工作负载而打造的全新Blackwell架构。
2015年,我们进入车载计算平台领域,推出了初代自动驾驶计算平台DRIVE PX和Tegra系列车载芯片,后陆续发布Xavier芯片、Orin芯片问世。2022年又在汽车业务增速放缓的情况下,我们又正式推出新一代自动驾驶计算芯片DRIVE Thor。
DRIVE Thor是专为汽车行业中日益重要的生成式AI应用而打造的车载计算平台。作为DRIVE Orin的后续产品,DRIVE Thor可提供丰富的座舱功能。
同时,我们也宣布多家头部电动汽车制造商正搭载我们的DRIVE Thor,既包括比亚迪、广汽埃安、小鹏、理想汽车和极氪等众多中国车企,也包括了文远知行等自动驾驶平台公司。
我还想说,新的工业革命即将来临,未来的数据中心将全面升级,实现加速。这得益于我们带来的强大计算能力,催生了生成性AI这一新型软件开发方式。这种AI将创造专用于生成任务的基础设施,而非传统的多用户数据中心,从而开启新的工业革命。
北京时间凌晨6点,黄仁勋返场告别,2024年的GTC结束。
04.
延伸探讨:谁可能有机会成为英伟达的平替?
如今芯片市场格局也正因AI分裂。
1月,黄仁勋到访英伟达北京、上海、深圳三处办公室,并出席了中国区的年会。
2月,英伟达在提交予美国证交会(SEC)的文件中,称华为在五个领域中的四个领域是其当前的竞争对手,包括人工智能(AI)相关图形处理器、拥有内部团队设计AI相关芯片的大型云服务公司、基于Arm的中央处理器和网络产品。
这也是英伟达首次把华为列为其在AI芯片等多个领域的主要竞争对手,其他对手还包括英特尔(Intel)、AMD、博通(Broadcom)和高通(Qualcomm)等,以及亚马逊、微软、阿里巴巴和百度等大型云计算公司。
英伟达在报告中说:“新的竞争对手或竞争对手之间的联盟有可能出现,并占据重要的市场份额。”
《环球时报》发表社评称,英伟达的举动可被视为对华为在AI芯片领域所取得进步的认可。
英伟达明确表示,华为不仅在GPU领域,还在CPU和网络芯片等多个领域构成了竞争。此次列为最大竞争对手的华为,被认为是一家云服务公司,并在设计自家硬件和软件以改进人工智能计算方面展现出强大实力。
黄仁勋曾表示,华为是一家好公司,技术实力非常过硬,这样的对手值得尊敬和重视。越来越多的半导体初创公司对英伟达在人工智能加速器市场的主导地位构成了严峻的挑战。
华为在过去一段时间一直被视为算力热的潜在受益者。华为开发的昇腾(Ascend)系列芯片,与英伟达AI芯片系列展开直面竞争较量,特别是华为去年推出的升腾910B芯片,被视为英伟达3年前面市的A100芯片的中国替代品。
华为昇腾910B采用了自研的Ascend架构,采用7纳米工艺,拥有256个AICore(人工智能内核),以及最高32GB的HBM2(高带宽内存2代)。这一性能指标基本对标了英伟达的A100,显示出华为在AI硬件领域的深厚实力。
分析师估计,中国AI芯片市场价值预计达到70亿美元。而就在美国政府收紧出口,限制美商对中国供应先进AI芯片前,百度已向华为订购1600片昇腾910B芯片,截至去年10月,华为已交付六成订单。周鸿祎也在去年同期表示过。360采购了1000枚华为AI芯片。
援引英伟达财务长克雷斯(Colette Kress)的说法:“除了中国之外,所有其他地区的(市场)增长都很强劲。在美国政府10月实施出口管制規范之后,我们在中国的数据中心营收大幅下降。”克雷斯指出,在美国更严格的管制下,英伟达转而出口不需要许可证的替代产品到中国。
黄仁勋前不久在接受路透社采访时表示:“英伟达正在向客户提供两款面向中国市场的新型AI芯片样品,2种芯片都符合无需(美国)许可证的规定。我们期待客户提供的回馈。”黄仁勋在采访中并未公布这2款新芯片的名称,亦未透露接受样品的客户是哪些公司,并且英伟达官方也未回应此事。
据外媒科技媒体报道,英伟达正在筹备针对中国市场推出3款芯片——H20、L20和L2。芯片中虽然包含了英伟达AI作业中大部分的新功能,但降低了部分运算能力,以遵守美国政府去年10月扩大实行的出口管制措施。
其中H20为3款芯片中,功能最强大的一款,原定去年11月发布,但因服务器厂商方面的问题延后。路透社的报道曾披露,英伟达已开始接受H20芯片订单,批发商定价与中国科技巨头华为推出的竞争商品接近。
此举被视为英伟达要捍卫在中国市场的主导地位。
两家科技巨头在AI领域的竞争将愈发激烈,不仅会推动技术的快速进步,也将为全球消费者带来更多创新和价值。英伟达在报告中说:“新的竞争对手或竞争对手之间的联盟有可能出现,并获得重要的市场份额。”
Blackwell是英伟达首次采用Chiplet设计的架构,这可能会简化基于Blackwell的GPU在硅片层面的生产,因为更容易最大限度地提高小型芯片的产量。
进化版的Blackwell不仅会在AI加速能力上进一步提高,还具备高速内存接口、经过改良的光线追踪技术和并行处理能力。摩根士丹利认为,英伟达想要捍卫自己的算力优势,牢牢绑定那些核心客户,B100是最有用的武器。
但另一方面,多芯片解决方案的封装也变得更加复杂。
现在的问题是,英伟达能够以多快的速度提高B100 SXM模块和 B100 PCIe卡以及DGX服务器的产量。毕竟,这些都是使用不同组件的全新产品。如果市场需求过大,就像之前H100发货初期造成大面积延迟的情况一样。
季度财报发布后的沟通会上,黄仁勋在接受采访时表示:“我们所有的产品,都是严重供不应求,这也是新产品的天然属性,所以我们在竭尽可能满足需求,只不过整体来看,我们的需求增长实在太快了。”
英伟达首席财务官(CFO) Colette Kress也补充说:“我们预计下一代产品的供应会非常紧张,因为需求远远超过了供应能力。”
Jones Trading首席市场策略师Mike O'Rourke发布一份题为《七巨头时代安息吧》的报告,认为苹果、谷歌、Meta、英伟达、特斯拉、亚马逊和微软这科技七巨头组合对股市的主导地位即将结束。这七只股票随着今年的命运分化迎来了分道扬镳,萨托里基金创始人兼投资组合经理丹·奈尔斯表示:“盈利在挣扎,他们遇到了竞争问题,我认为可以从股价中看到这一点,苹果、特斯拉今年都在下跌,谷歌的表现也落后于市场,该组合应该会只剩下英伟达、Meta、亚马逊和微软。”
5年,从线下回到线下,东道主英伟达如今的主权地位较2019年已不可同日而语。
标题:5年之后,黄仁勋热血归来:英伟达在AI世界称王
地址:http://www.hmhjcl.com/xiaodugui/153063.html