英特尔近期需要痛苦的事情实在太多太多了,一方面代工业务做不起来,另一方面AI业务也不如预期,数据中心市场同时面临AMD和Arm的进攻,就连它引以为傲的消费市场,也出了一点小小的麻烦。
在2024年第三季度财报发布后,英特尔首席执行官帕特·基辛格(Pat Gelsinger)表示,近期英特尔所推出的Lunar Lake架构被设计为一个小众、一次性的产品,没有直接继任者。在财报电话会议中,他解释说,采用外部制程节点以及LPDDR5X内存集成到封装中的复杂性,导致了低利润率,这影响了英特尔未来产品线的决策。
根据基辛格的说法,即将推出的Panther Lake CPU将有超过70%的部分由英特尔自己的晶圆厂制造,并且将是第一款采用英特尔18A制程节点的客户端CPU,该产品计划在2025年下半年发布,且将不包含封装内存,而作为Panther Lake继任者的Nova Lake也不会包含封装内存。
这意味着封装内存只是英特尔处理器历史中短暂划过的一道流星,刚出生不到两个月就被宣判了死刑,让人为之惋惜之余,也心生疑问:为什么要砍掉好不容易才用上的封装内存?
ARM难倒了英特尔
英特尔所代表的x86曾多次迎战像ARM这样的精简指令集对手,最早可以追溯到上个世纪的PowerPC,其曾经以一己之力同IBM、苹果、摩托罗拉这三者展开争斗,并最终取得了辉煌的胜利,实现了消费和服务器市场两开花,一度压得其他厂商透不过气。
但即便是如此强大的x86帝国,依旧无法涵盖消费电子的方方面面,尤其是在以嵌入式为代表的低功耗领域,但有意思的事情来了,ARM似乎就是为了这方面而生的。
最早的ARM处理器起源于Acorn代号为Acorn RISC的项目,由两位来自剑桥大学的才华横溢的计算机科学家Sophie Wilson和Steve Furber在资源极度有限的情况下为设计了一款Acorn 自己的 32 位微处理器。
ARM1的结构非常简单,基于 808 行 Basic 语言创建,仅有个25,000晶体管,甚至没有乘法部件,引用 Sophie 在一次电报采访中的话:“我们通过事先非常非常仔细地思考事情来实现这一点”,尽管在当时并没有引起太大反响,但却在英国保留了一枚处理器的火种。
不过与当时最火的386处理器不同的是,ARM处理器一开始的设计理念是low-cost, low-power和high- performance,这显然和移动市场不谋而合,尽管当时还未发展出真正意义上的移动市场。
几年后,苹果似乎看到了ARM的潜力,和Acorn以及VLSI共同出资创建了ARM。苹果当时正在为代号为牛顿的项目寻找低功耗处理器,这一项目的终极目标是打造地球上第一个平板电脑。
只可惜,牛顿项目过于超前,打造出来的平板电脑和现在相比,性能过于弱小,很快就宣告了失败,但ARM并未从此一蹶不振,反而借由这一次失败,寻得了一片更广阔的天空。
1993年至1995年,Cirrus Logic、德州仪器、诺基亚、夏普、三星和 NEC等公司、先后加入ARM阵营,通过合作,ARM发明了16位的Thumb指令集,也真正意义上创建了基于ARM的SoC商业模式,同时还迎来了公司成立以来最重要的一颗处理器内核——ARM7。ARM7使用的Die尺寸是80486的十六分之一,售价仅为50美金左右,较小的Die尺寸使得ARM7处理器获得了较低功耗,适合手持式应用。
为什么这么多公司,包括已经生产自己的芯片的大型电子公司,都想与 ARM 签约?部分原因是成本优势——ARM 许可证并不昂贵,而且肯定比花数年时间雇佣数百名工程师从头开始设计新芯片要便宜,而另一部分原因是 Sophie Wilson 和 Steve Furber 创造的技术遗产。ARM 芯片制造速度快、简单,而且功耗低。
此外,ARM 还有另一张王牌:它不仅仅是一家芯片制造公司。当 ARM 与其他公司合作时,它就成为了合作伙伴,帮助设计可根据其他公司特定需求定制的解决方案,许多公司通过与ARM的合作,成功研发出了符合自身需求的处理器,进而取得了商业成功。
ARM的低功耗与精简,以及实惠的授权费用,让它在英特尔处理器之外的空白站稳了脚跟。
不过,ARM处理器真正迎来自己的成功,还要等到苹果之后的四款产品线:iPod、iPhone、iPad和ARM Mac。
其中最值得关注也是最有意思的,就是初代iPhone所搭载的ARM处理器。
乔布斯曾问过英特尔的CEO保罗·欧德宁是否有兴趣竞标,为苹果即将推出的手机制造芯片。当时,这家制造业巨头正因桌面x86 CPU的销售势头强劲,英特尔还拥有一个基于ARM的业务,即1998年从数字设备公司(DEC)收购的XScale,因此,英特尔本来可以轻松满足苹果的需求。
但是欧德宁拒绝了这个提议。他计算出苹果愿意支付的每个CPU的最高价格低于英特尔的生产成本,而且他并不确定苹果的手机会有很高的销量。此外,他对支持XScale业务感到担忧,特别是在英特尔正在研发低功耗的x86版本Atom的情况下。于是,他决定加码x86,并在2006年出售了XScale部门。
在英特尔拒绝这个合作机会后,苹果转向了三星,其同意为苹果即将推出的手机制造一款强大的新ARM芯片。它就是S5L8900,这是一款SoC(系统级芯片),采用ARM11核心,运行频率(降频)为412 MHz,配备128MB内存,最高16GB存储空间,并集成了PowerVR MBX Lite 3D图形处理器。这款处理器让人想起了1991年的ARM 250“Archimedes on a chip”,但它并不是台式电脑,而是一部手机——一部革命性的手机。
也正是从这一年开始,ARM凭借着自己低功耗的特性,迅速占领了手机市场,并在随后的iPad发布后,顺势占领平板电脑市场,而被英特尔寄予众望的Atom却不堪一击,市场份额很快就降至了冰点。
移动市场的失守已经是让英特尔备受煎熬了,苹果之后还在PC市场对英特尔和x86发起了进攻:2020年11月,苹果正式发布M1芯片,同时宣布了搭载了该芯片的MacBook,并宣布Mac在未来逐步放弃英特尔的x86平台,逐步转向苹果自研的ARM平台。
而M1芯片的最大优势,也是ARM从80年代延续至今的优势,就是低功耗。
低功耗并不意味着低性能,而在相同的性能下消耗更少的电量,或者在消耗相同电量的情况下,达成更高的性能。在苹果2020年展示的PPT当中,M1的 CPU 功耗峰值约为 18W。而作为对比的x86芯片的峰值功耗则在 35-40W 范围内,而结论是M1在低核心频率下实现了更高性能:在峰值到峰值时,M1 的性能比x86产品提升了约 40%,同时功耗仅为其 40%。
英特尔在它的几十年发展历史中从未受到过如此沉重的打击。
破除ARM高效神话
相信很多人都有过这样的一个疑问:在同性能下,x86一定比ARM功耗更高吗?
答案自然是否定的,没有天生低功耗的架构,ARM现在的低功耗也是多年来持续导向和优化的结果,x86并非没有低功耗的尝试,例如前文中提到过的Atom,就是英特尔用来对标ARM低功耗的一条产品线。
多年来,在苹果和高通等公司不懈努力下,ARM架构的高效被打造成了一个神话,乃至于许多消费者都形成了这样的固有印象,但英特尔决定自己来破除这个神话。
在今年6月的Computex前夕,英特尔在台北举办了Intel技术巡展(Intel Tech Tour),详细介绍了其即将推出的代号为Lunar Lake的移动处理器。新芯片旨在实现多种目标,从更高效能到设备上的人工智能。英特尔还特别提到,他们希望“打破x86无法像ARM一样高效的神话”。
在活动中,英特尔并未回避关于ARM芯片的讨论,也没有试图忽视这个“房间里的大象”,高通和苹果正在不断侵蚀原本属于英特尔和x86的市场份额,英特尔要怎么做才能挽回十几年以来的陈规陋见呢?
首先需要明确的是,x86是一种极其强大的架构。x86处理器基于复杂指令集计算(CISC)架构,包含更多复杂的指令,这些指令消耗更多功率。有些x86指令甚至需要多个周期来执行,这会增加功耗但降低效率。
由于拥有更复杂的指令,x86还可能具有更复杂的流水线。例如,x86使用的是可变长度的指令集,指令长度从1字节到15字节不等,而ARM的指令长度是固定的(尽管Thumb指令可以是可变的)。由于指令复杂性,分支预测在x86处理器中也显得尤为重要,因为这些指令通常会被转换成更简单的类似RISC的微操作。这些分支预测器非常先进,因为错误预测和随后的停滞成本可能比在ARM架构中的停滞成本大得多。
此外,ARM每条指令所需的晶体管较少,这也是其功耗需求较低的原因之一。这些只是ARM实现高效性的一些方法,但两种架构之间还有大量的细微差异,使得ARM在效率上占据优势。然而,较少的每指令晶体管数也意味着复杂性降低,而这正是x86作为强大架构的闪光点,能够满足巨大的计算需求。
为了使x86能够像ARM一样高效,英特尔需要做大量工作。首先,从功耗角度来看,x86的指令集本身就很“昂贵”,因为在x86上指令的取指、解码和执行周期比ARM更复杂。将简单的指令组合成一个单独的微操作也有帮助,特别是在减少开销方面。
相比之下,ARM的RISC架构是一个巨大的优势,尤其是每条指令在ARM中设计得更快更易执行。ARM还采用固定长度的指令,使得解码更简单,而较低位的Thumb指令可以减小代码大小,减少所需的内存空间。Thumb指令更小,意味着执行时需要的内存提取更少,并且更多的指令可以放入处理器的缓存中。
此外,ARM芯片通常是更大系统级芯片(SoC)的一部分,而不是通过主板与计算机其他部分接口的独立CPU。ARM CPU与内存控制器、GPU和计算机硬件的其他关键部件的直接连接也可以带来效率提升。这正是苹果统一内存的运作方式,并且是其卓越电池续航能力的一个原因。
英特尔的实际做法也在相当程度上借鉴了苹果,让我们来看看英特尔Lunar Lake架构。
与去年的Meteor Lake架构的Core Ultra 100系列芯片类似,Lunar Lake也是通过英特尔的Foveros技术将多颗小芯片封装在一起。在Meteor Lake中,Intel使用Foveros技术组合了不同公司制造的多个硅芯片——英特尔制造了主CPU核心所在的计算单元,而台积电则负责图形、I/O及其他功能模块的制造。
在Lunar Lake中,英特尔仍然使用Foveros技术,即通过一个“基础单元”作为插入层,使不同的芯片之间能够进行通信来连接整个芯片。但是这次CPU、GPU和NPU都被整合在同一个计算单元中,而I/O和其他功能则由平台控制单元(在之前的英特尔CPU中也称为PCH,平台控制集线器)负责。另外还包括一个“填充单元”,仅仅是为了让最终产品呈矩形。这次计算单元和平台控制单元都由台积电制造。
英特尔仍然将其CPU核心分为高效能的E核(Efficiency Core)和高性能的P核(Performance Core),但总体核心数量相较于上一代Core Ultra芯片以及更早的第12和第13代Core芯片有所减少。
Lunar Lake拥有四个E核和四个P核,这种配置在Apple的M系列芯片中较常见,但在英特尔中并不多见。例如,Meteor Lake的Core Ultra 7 155H包含六个P核和总计十个E核;Core i7-1255U则包含两个P核和八个E核。Intel还移除了P核的超线程(Hyperthreading)技术,腾出的硅片空间更适合用于提升单核性能。
英特尔还为Lunar Lake引入了一种新的GPU架构,代号为Battlemage,它也将驱动未来的桌面Arc独立显卡,根据英特尔的说法,集成显卡Arc 140V在游戏中平均比旧的Meteor Lake Arc GPU快31%,比AMD最新的Radeon 890M快16%,具体性能会因游戏不同而有较大差异。而Arc 130V显卡少了一个英特尔的Xe核心(7个,而不是8个),频率也更低。
计算模块的最后一部分是神经处理单元(NPU),它可以在本地处理一些AI和机器学习任务,英特尔表示,Lunar Lake的NPU在不同型号的芯片中性能介于40到48 TOPS之间,满足或超过微软的40 TOPS要求,且整体性能约为Meteor Lake NPU的四倍(11.5 TOPS)。
当然,Lunar Lake最重大的改变还是将内存集成在CPU封装中,而这一点恰恰就是苹果和高通正在做的。据介绍,Lunar Lake芯片有16GB或32GB内存(根据已发布的型号,型号以8结尾的(例如Core Ultra 7 258V)为32GB,以6结尾的为16GB),这种封装方式不仅节省了主板空间,也因为数据的传输距离更短而减少了功耗。
在经过这一系列大刀阔斧的改革之后,Lunar Lake最终实现了x86架构下比肩ARM架构的功耗:根据媒体此前的测试,在搭载了258V的华硕Zenbook上,PCMark现代办公电池续航测试中可持续约16.5小时,而配置相似的155H Zenbook 则仅持续了12小时出头,这一成绩和搭载M3的MacBook非常接近,是近几年来续航最好的x86架构笔记本之一。
英特尔确实做到了,它用Lunar Lake这柄大锤打破了苹果和ARM塑造的功耗神话。
壮士断腕?
但很可惜的是,英特尔在打破神话之后却选择了放弃,直接宣告未来的处理器不会使用Lunar Lake这样的封装内存,再度回归传统的处理器设计。
有意思的是,英特尔在Lunar Lake正式发售的半年前,就决定了后续的Arrow Lake、Nova Lake、Raptor Lake、Twin Lake、Panther Lake与Wildcat Lake等新产品,均不采用Lunar Lake的封装方式,也就是说Lunar Lake在英特尔内部判了死刑。
为什么口碑还不错的Lunar Lake,英特尔自己却不看好呢?
分析师郭明錤提供了一种观点,他认为Lunar Lake的诞生有两个原因,首先是与苹果的竞争,MacBook采用自研芯片后市占率提升,英特尔想要证明x86架构也能达到相似能效和续航;
第二个原因则是对微软Surface改用ARM处理器的回应,微软2Q24的新款Surface系列全面采用有45 TOPS算力的高通处理器,针对它推出竞品。
他表示,虽然英特尔称Lunar Lake因封装内存稀释毛利率而失败,但真正原因是品牌和代工厂商因采用零件弹性降低不利于利润因而采购意愿低、英特尔对DRAM供应商议价能力远低于苹果且需要依靠台积电代工因而不利于成本优化、AI PC应用不成熟因而消费者不愿意为Lunar Lake买单。
他指出,从Lunar Lake失败可见,英特尔面临的挑战不仅是制程落后,更深层的问题在于产品规划能力(另一证明为AMD在服务器的占有率持续提升),制程技术或许只是表象,导致一连串错误产品决策的组织机制可能才是英特尔的核心问题。
郭明錤的看法可能不是完全正确,但他确实指出了英特尔产品线的一个核心问题:混乱。
英特尔的服务器芯片暂且不做讨论,面向消费市场的芯片已经乱成了一团乱麻,试想一下,倘若一个消费者对过往几年的英特尔处理器续航感到失望,但在Lunar Lake上却惊喜地获得了比肩ARM MacBook的续航,但当下一代推出时,这样优秀的续航表现却消失不见,消费者内心会作何想法呢?
话说回来,英特尔的18A制程即将量产,但对于它自己的处理器来说,却并不是什么好消息,这一制程目前有且只有英特尔自家会用,尚未敲定任何大客户,每一次制程升级都像是摸着石头过河,对比之下,台积电却有足够的客户来验证和改良自己的最新制程,愈发凸显英特尔的尴尬。
英特尔砍掉Lunar Lake的更深层原因,不仅仅是内存影响利润那么简单,对于如今的首席执行官基辛格来说,最头疼的就是如何做好处理器部门和代工部门之间的平衡,如果处理器部门未来持续选择台积电代工,那么代工部门处境就会更加艰难,但如果处理器部门迟迟得不到最先进的制程技术,那么不光是服务器市场,连消费市场也会被竞争对手夺走。
归根结底,就是一个让谁吃苦的问题,很显然,谁都不想过几天苦日子。
但回想一下,苹果为了一块指甲盖大小的芯片的芯片,又吃了多少苦呢,从摩托罗拉68K到PowerPC,再到英特尔,三度改换门庭,手机芯片也曾一度只能仰人鼻息,看三星的脸色行事,花了几年导入台积电,最终推出自研的M1芯片,其中的坎坷都可以写成一本血泪史了。
而英特尔如今要吃这一点苦,比起前几十年的顺风顺水,又算得了什么呢?
END
發表評論 取消回复