11月16日凌晨,微軟發佈瞭兩款自研芯片:AI加速芯片Maia 100和CPU芯片Azure Cobalt 100。
互聯網公司自研芯片,已經不是什麼新鮮事。之前蘋果、亞馬遜、谷歌、華為、阿裡等公司就已經這麼做瞭,微軟已經算是晚的瞭。
(說明一下,這裡的互聯網公司指的是互聯網底層技術的公司,也即雲計算公司,或者支撐互聯網公司業務的底層技術部門。)
今天這篇文章,我們仔細分析一下,在主流大客戶紛紛自研芯片的當下,獨立的芯片公司未來該如何更好地發展?
1 算力芯片面臨的技術挑戰
關於算力芯片面臨的挑戰,之前就詳細介紹過,這裡不展開瞭。簡單總結如下:
算力需求數量級提升。例如,AI算力每2個月翻一倍。典型的大算力場景:AI大模型、高階自動駕駛、元宇宙等。
性能和靈活性難以兼顧。CPU靈活但性能不夠,ASIC性能極致但靈活性不夠。越復雜的系統,對通用靈活性的追求越高於對性能的追求。
業務的橫向和縱向差異性。橫向差異,指的是不同客戶的業務差異;縱向差異,指的是單個客戶的業務迭代差異。如果針對場景定制芯片會導致架構碎片化,並且芯片的迭代完全跟不上軟件的迭代節奏。
大芯片研發成本越來越高。數以億計,甚至十億計,的研發成本,需要芯片的大規模落地來攤薄。
芯片大規模落地困境。宏觀算力需要規模化的計算集群,高昂的研發成本需要規模化來攤薄研發成本。但各種性能優化的專用定制方案通用性低,覆蓋場景少,難以實現大規模部署。
生態建設的門檻。大芯片需要框架和生態,門檻高且需要長期積累,小公司難以長期大量投入。即使構建瞭芯片生態,但生態私有,如何獲得客戶的廣泛認可,也是非常大的挑戰。
從客戶視角看,不對特定廠傢的硬件平臺產生依賴。需要開放標準化的硬件和系統堆棧。
從客戶視角看,存在宏觀計算平臺融合的挑戰。雲網邊端融合,軟件可以跨大范圍的硬件遷移;需要不同廠傢硬件的開放標準化,構建統一的硬件平臺和系統堆棧。
2 互聯網公司自研芯片分析
雲計算進入下半段,行業從粗獷式發展向精細化發展轉型。需要深入到底層的軟硬件,通過深層次的技術創新來驅動雲計算變革。
傳統的芯片公司,雖然有一些先進的底層技術,但距離客戶場景較遠。閉門造車,技術難以轉換成“給客戶帶來更大價值”的產品;反而在一些方面,約束瞭客戶的價值創新。
這使得互聯網公司不得不“自己動手,豐衣足食”。
互聯網公司做芯片,具有如下一些優勢:
首先,是距離最終客戶近。更能把握客戶的需求,更貼近客戶的場景。
其次,是互聯網公司做的事情更宏觀更系統。雲計算、人工智能、大數據、物聯網、元宇宙等熱點方向,都是互聯網公司主導的技術發展潮流,互聯網公司站在宏觀層次,更能深刻體會到自身對底層軟硬件的各種“特殊”要求。
最後,則是資源優勢。互聯網公司具有資源整合的優勢,並且在整合客戶需求、市場開發方面遠比芯片公司有優勢。
互聯網公司做芯片的劣勢,體現在:
首先,是技術積累不足。互聯網公司自研芯片還在早期階段,很多方面的優化還比較淺層;要想深入到技術底層,全面而系統地重構整個數據中心技術棧,挑戰巨大。
其次,芯片不是互聯網公司的主業。一旦遇到“風吹草動”,很可能最先被砍掉的就是芯片這種“隻出不進”的部門。或者說,互聯網公司對芯片難以長期堅守,難以積累芯片方面的核心競爭力。
再次,規模劣勢。雖然互聯網巨頭每年的芯片消耗量非常大,但畢竟是單個客戶。大芯片整個鏈條資金消耗量巨大,需要更多客戶的更大的銷售量來攤薄成本。單個客戶的芯片消耗量,仍不足以讓算力芯片進入高質量良性發展狀態。
最後,供應商綁定風險。自研芯片供給自己,幾乎是絕對的供應商綁定。自成一套體系的技術演進,會約束自身技術的發展。如果出現技術選型偏差,或芯片質量問題,會拖累上層業務,引起連鎖問題。
術業有專攻,喝牛奶一定要自己養牛嗎?
3 互聯網公司的本質訴求
前面我們就分析過:互聯網公司本質上並不是想大包大攬,“吃獨食”;反而是芯片公司的產品無法滿足這些客戶的需要,逼迫著客戶不得不自研。
這裡,我們對互聯網公司自研芯片的本質訴求進行分析,希望獨立芯片公司能夠重視這些訴求,做出讓客戶真正滿意的產品。
這裡簡單分析一下互聯網公司的一些,隱藏在許多表面訴求背後的,更加真實的本質訴求(拋磚引玉):
首先,最核心的必然是更高的性能/成本比。性價比是永恒的話題,都希望最低廉的成本下提供最高的性能價值。
其次是,差異化。互聯網公司需要有足夠理想的硬件平臺,支撐差異化的功能和價值,給到自己的客戶。
再次,硬件可迭代。軟件迭代很快,為瞭增加硬件設備的生命周期(也是一種降成本的手段),則需要硬件能夠支持軟件服務的長期迭代。
再再次,快速業務創新。互聯網公司自己的產品和服務是自身的核心競爭力,互聯網公司需要的是能夠自己“掌控一切”的開發平臺,來實現業務創新,來增強自身的核心競爭力。
最後則是,無平臺依賴。平臺依賴某種程度上是一種“壟斷”。互聯網公司,通常也是“巨頭”,有非常大的產業鏈“話語權”,肯定不希望被綁定在某個特定的平臺上。這樣不僅會降低自己的“話語權”,還存在巨大的技術風險。
這裡我們假設一個理想情況:如果存在通用的芯片方案,能夠滿足上述這些需求,客戶不會產生平臺依賴,不對客戶自身業務的核心競爭力構成威脅,並且功能更加強大,性能更加強勁,價格更具有顯著優勢。
那麼請問,互聯網公司還需要芯片自研嗎?
或者更直白的說,互聯網公司,願意吃力不討好,通過自研芯片增加自己的成本、降低自己的競爭力嗎?
反過來說,芯片公司需要更多的本質創新。
4 芯片研發模式分析
芯片研發通常有三種模式:
模式一,傳統模式,硬件定義軟件:
問題一,芯片公司私有的架構和平臺,構建生態門檻很高,客戶存在平臺依賴。
問題二,定制的解決方案,難以覆蓋所有客戶的要求。
問題三,客戶需要修改自身的業務邏輯,遷移的成本和風險很高。
硬件定義軟件,是架構孤島、生態孤島、算力孤島;並且因為供應商依賴的原因,對客戶不友好。
模式二,客戶友好模式,軟件定義硬件:
芯片公司提供設計服務,為客戶定制。客戶自研也屬於客戶定制的范疇,因為內部客戶也是客戶。
優勢在於:能夠拿到詳細的客戶需求,瞭解場景痛點;還有就是早期種子客戶的支持,是產品成功的關鍵。
問題一,客戶的需求,不一定是“真正”的需求,真正的需求需要自己深度洞察。
問題二,需求的橫向和縱向差異問題並未解決。首先,即使大客戶內部,不同的團隊之間的需求也存在較大差異;其次,需求的快速迭代如何滿足?
模式三:開放模式,軟硬件相互定義。開放標準的平臺架構/接口:
通過通用標準化的平臺,實現業務和平臺解耦。
通用的設計,實現客戶軟件定義一切,平臺硬件加速一切。
通過本質的系統架構創新,實現:數量級性能提升;覆蓋更多場景及迭代;不改變業務邏輯,實現業務平滑遷移;兼容已有生態;沒有平臺依賴;學習和使用的低門檻。
哪種模式更好?仁者見仁,智者見智。
5 芯片公司需要進化成互聯網公司
量變會引起質變。
但與此同時,很難發現質變從何時開始,很難把握質變發展的整個過程。
芯片公司的組織和研發模式,在逐漸地進入新的質變,如表格所示:
小規模芯片階段。最重要的是芯片的研發。這一時期,芯片公司就是純粹的芯片公司,通常硬件和軟件開發人員比例在1:1左右。
大規模芯片階段。量變引起瞭質變,各類處理器芯片越做越大,則進入軟件型芯片公司的時代。2008年,黃仁勛率先喊出NVIDIA是一傢軟件公司。然後把更多的資源給瞭CUDA框架,而不是GPU芯片。所以才成就瞭現在NVIDIA的偉大。這一時期,硬件和軟件人員的比例在1:5左右。
超大規模芯片階段。現在的發展趨勢,單機計算越來越少,分佈式集群計算成為主流,甚至走向跨集群計算。芯片很重要,開發框架更重要。但即使開發框架重要,也僅僅解決的是單機計算的問題,要想解決集群/跨集群計算的問題,計算平臺解決方案則更更重要。我們認為,這一時期的芯片公司,需要做到比客戶更懂客戶,將成為典型的互聯網型的芯片公司,其硬件軟件人員比例將達到1:10左右。
計算規模的量變,需要架構創新的質變:
隻懂軟件,難以駕馭復雜的芯片設計,無法深入,難以整合;
隻懂硬件,堆疊的性能再好,客戶難以駕馭,場景覆蓋小,生命周期短,芯片無法大規模落地,成本高昂,風險極高;
唯有軟硬件深度融合,比客戶更懂客戶,才是正確的發展道路。
6 更深層次的開放合作
行業和技術都在巨變:雲計算、邊緣計算出現後,系統的規模數量級膨脹。也因此,互聯網公司的業務場景非常復雜,具有很多超出個體硬件的高級特征。能深刻理解這些系統需求的莫過於互聯網公司,而芯片公司對系統的把握,有些不足。
雖然如此,但這個視角仍然是局部的、相對微觀的。
人類發展,從“男耕女織”到“手工作坊”,再到流水線的“工業化大生產”,再到現在的“全球化大分工”。從更宏觀、更長期以及發展的視角看,全球產業是國際化大分工的,每個地區每個公司每個人,都在做自己最擅長的事情。
(企業的能力邊界:一個公司之所以隻做自己擅長的事情,不是不願意拓展到其他相關甚至不相關的領域,而是能力有邊界,“鞭長莫及”。)
隨著時間推移,很多技術會沉淀,雲計算底層技術也不例外。
開放合作,更加科學精細的分工,才能構建健康而宏大的行業生態。
底層的芯片公司,也需要不斷地自我革新,才能真正幫助客戶,成就客戶,同時也成就自己。
發表評論 取消回复