作者 | 荣智慧
唯物的中国芯片产业深度观察
黄仁勋是2024年科技界最大的“流量”明星,马斯克也得甘拜下风。
3月19日,黄仁勋换上TomFord价值8990美元的黑色皮衣,显然明白这场在加利福尼亚圣何塞的演讲将会激起怎样的反响:英伟达最新Blackwell B200图形处理单元面世,为火热的人工智能界再添一把干柴。
“我们将和合作伙伴一起,让世界开始加速计算。”黄仁勋说。他向观众展示芯片和服务器主板,“我要小心一点,这东西值100亿美元。”
黄仁勋在圣何塞举行的英伟达GTC大会上发表主题演讲
2023年,英伟达毛利高过爱马仕。
虽然口口声声“围剿”英伟达,但亚马逊、微软、谷歌等巨头依然忙不迭地下订单。
OpenAI首席执行官奥特曼连夜发了一条推文:这是人类历史上最有趣的一年,却是未来最无趣的一年。
01
英伟达投下“AI核弹”
3月19日,英伟达创始人黄仁勋在一年一度的GTC(GPU技术大会)投下“AI核弹”。英伟达的最新产品,将“见证AI的变革时刻”。
“炸裂”的不仅是人工智能圈,半导体圈亦一片惊叹。刚刚于上海闭幕的半导体展会Semicon,几乎所有人的主题发言都提到Blackwell的“划时代”意义。
Blackwell B200是目前世界上最强大的芯片,包含两颗芯片共2080亿个晶体管,通过10 Tb/s的片间互联技术连接。其采用台积电4纳米制程工艺。比起制作Hopper H100的N4技术,性能提升了6%,综合性能提升约250%。
Blackwell GPU
从能力看,Blackwell B200的性能为20 PetaFLOPS(每秒可执行 20×10^15 次浮点运算),比上一代Hopper H100提升4倍,同时AI推理性能比上一代提升30倍。
值得注意的是,Blackwell B200并不是上一代产品的简单升级。因为人工智能大模型不仅要求芯片有“计算能力”,更要求芯片具有“并行能力”——实现多层的并行计算、层之间的通信。
Blackwell B200能优化张量并行、专家并行、管道并行和数据并行等方案,在可编程的基础上令计算更快,性能更佳。
而且,第五代NVLink为每个GPU提供1.8Tb/s吞吐量,确保当下最复杂的大型语言模型能在576个GPU之间无缝高速通信。
英伟达的NVLink Switch Chip
拿应用来说,GPT-4需要大约8000个Hopper GPU和15兆瓦的功率,训练90天;同样时长的训练只需使用2000个Blackwell GPU,消耗功率4兆瓦。
黄仁勋总结,Blackwell芯片在运行基于OpenAI的GPT-4等大型语言模型的生成式AI服务时,性能提高30倍,同时能耗降低25倍。
要知道,英伟达上一代Hopper芯片,晶体管800亿个。主力产品H100人称“世界上第一块为生成型AI设计的芯片”,价格4万美元,几乎永远处于“缺货”状态。马斯克曾大吐苦水,说“H100比毒品都难买”。
如今Blackwell B200更快更强,售价让人不敢想,而且多半有钱也抢不到。据黄仁勋介绍,客户群里亚马逊、谷歌、微软和特斯拉都会下单,而这款芯片“相当昂贵”。
02
命名里的玄机
英伟达的芯片架构,起名都很有“讲究”。
2006开始,英伟达陆续推出了Tesla、 Fermi、Kepler、Maxwel、Pascal、Volta、Turing、Ampere架构,分别对应著名科学家特斯拉、费米、开普勒、麦克斯韦、帕斯卡、伏特、图灵、安培。
上一代Hopper,得名于美国计算机科学家格蕾丝·霍普。她是哈佛大学Mark I计算机的第一批程序员之一,也是计算机编程的先驱。她第一个设计独立于机器的编程语言理论。使用该理论创建的FLOW-MATIC编程语言,后来被扩展为COBOL,至今仍在使用。
格蕾丝·霍普
这一代Blackwell则来自非裔美国数学家大卫·布莱克威尔。
布莱克威尔生于1919年,卒于2010年。2012年,美国总统奥巴马为其追授布莱克威尔国家科学奖章。他对博弈论的研究,为人工智能发展打下基础。通过统计两个玩家重复博弈的策略,布莱尔威尔设计了可接近性框架,能对动态环境中的决策过程进行建模。
大卫·布莱克威尔
在人工智能的训练中,他的研究让算法适应不断变化的条件,并在复杂场景中做出最佳决策。他对顺序分析、动态编程的理解,都有助于增强人工智能系统的经验,改进决策能力。
特别是拉奥-布莱克威尔(Rao-Blackwell)定理,提供了利用估算来减少误差、完善统计的方法。在机器学习、优化算法和概率建模中,准确的估算是提高人工智能系统的效率和有效性的重要工具。该定理应用于各种人工智能任务。
Blackwell芯片有极其明确的“AI”定位,用布莱克威尔命名也不奇怪。
从2016年到2024年,Blackwell的AI算力增长了一千倍
其实,芯片架构就好比家居装修里的“硬装”。一个毛坯房,是做货物仓库、家庭起居室还是门面商铺,要根据用途铺水电、砌墙。而设计软件,就相当于“软装”了。
英伟达“硬装”“软装”如今一起向AI发力。
除了Blackwell,软件平台NIM能让客户直接在生产环境里部署、定制和与训练AI模型。跟之前的CUDA一样,NIM免费提供,但只能和英伟达GPU搭配使用。
03
英伟达不卖芯片
“英伟达不卖芯片,英伟达卖的是数据中心。”黄仁勋公开表示。
根据财报显示,2023英伟达第四财季营收达到创纪录的221亿美元,同比增长265%。净利润123亿美元,同比暴增765%。其中最大的营收来源数据中心部门,达到创纪录的184亿美元,较第三季度增长27%,较上年同期增长409%。
英伟达四季度实现营收221亿美元,同比增长265%
整个2023年,英伟达约有四成收入来自数据中心。
数据服务,是一个每年2500亿美元的市场,并以20%至25%的速度增长。这全仗加速计算和生成式AI的火爆,全球范围内企业、产业和国家的需求正在激增。
因此,英伟达把数据中心(包含全栈系统和所有软件)视为自己的核心卖点。Blackwell GPU,只是其中的一环。
在这个意义上,Blackwell的定价,不是芯片产品的价格,而是数据中心服务的价格——网络、存储、控制平面、安全和管理模块,都将整合到客户的系统之中。
Blackwell 引入了第二代 Transformer 引擎
黄仁勋看好生成式AI带来的边缘计算机会。
当下的计算是“中心化”的。就像每次问老师一个问题,老师都要跑回办公室检索信息,耗费了大量的精力。人们每次打开手机,处理问题,都需要调动CPU来处理数据,耗费了大量的计算能力。
未来,计算是在边缘生成的,而不是基于检索。黄仁勋相信,未来人们电脑上的几乎每一个像素、每一次交互都将通过生成过程产生。这也是Blackwell新一代架构的能力所在。
黄仁勋判断五年内通用人工智能(AGI)将会到来。他认为,在大量的测试集上,比如数学测试、阅读测试、逻辑测试、医学考试、法律考试、GMAT、SAT 等等,AGI可以做到比大多数人类都好,甚至比所有人都好,就证明AGI足以走遍天下。
黄仁勋在英伟达GTC大会上
GTC开幕的第二天,有媒体问黄仁勋是当代达芬奇,还是奥本海默?黄仁勋回答,奥本海默是造炸弹的,我们不干这个。
有意思的是,媒体依然使用“AI核弹”来形容Blackwell的诞生——仿佛黄仁勋真的是造炸弹的。
虽然Blackwell和Hooper一样受美国出口禁令限制,不得向中国出售。但黄仁勋透露,英伟达下一代汽车智能芯片DRIVE Thor专为Transformer引擎设计,并将被比亚迪采用。
中国新能源汽车期待的智能化“下半场”,依然离不开英伟达芯片。
编辑 | 向由
值班编辑 | 张来
發表評論 取消回复