編者按:

今年是數字經濟發展的井噴之年。年初,國內發佈瞭數字中國規劃,宣告數字經濟入國策;國外AI技術的發展,帶領全球走入ChatGPT時刻。其中,AI是數字經濟領域裡的兵傢必爭之地,也是加速數字經濟發展的新引擎。因此,中國市場上出現瞭“百模大戰”的奇觀。

在AI大模型領域,有一個現象叫“智能湧現”,並且被不少AI從業者認為是模型演進過程中最有魅力的地方。據業界人士描述,當大模型訓練突破一定參數門檻時,其“智力”上會出現一個質的飛躍,而這個飛躍就是“湧現”。好比是,佛傢禪宗裡所言的“頓悟”。

實際上,“湧現(emergence)”這個詞,最早是一個生物學概念,用於形容許多小個體相互作用後產生瞭大的整體,並在大整體上展現原本個體不具備的新特性。這就好像中文裡所說的“眾人拾柴火焰高”。同時,不少業內人士認為,AI今後的發展也應是如此。

此外,伴隨AI“湧現”產生改變的還有人的思維模式。在這個最令科技工作者振奮的時代,思想的奇妙碰撞時時刻刻都在發生。但也正因如此,上個月形成的共識,也許下個月就會被推翻。

為抓住這些思維“湧現”,南方財經全媒體策劃有《智能湧現》專欄,對話AI產業鏈上的一線工作者,力求用一篇又一篇的稿件,記錄AI時代下的思維火花。

作為欄目的第一篇,我們打算從數據開始切入整個產業。因為數據不僅是“湧現”的門檻,也是AI發展的勝負手。為此,我們請到瞭一傢在數字中國事業裡深耕12年的“專精特新”企業——華傲數據。華傲數據董事長賈西貝此前在愛丁堡大學讀博期間從事科研多年,現在是一名企業傢及深圳市人大代表,可以說是一位同時兼具學界和商界兩種不同視角的采訪對象。

南方財經全媒體記者 石恩澤 深圳報道

“若是這麼多大模型都需要數據喂養,不出三年,AI大模型吞噬數據的速度,將使全球陷入數據荒。”在某個深夜裡,華傲數據董事長賈西貝在微信上和南方財經全媒體記者交流時感嘆道。

作為一個勇闖中國公共數據加工治理無人區10餘年的開荒者,賈西貝一面為科技工作者迎來最好的時代而開心,一面又為中文數據生態的發展而憂心。

此前賈西貝在采訪中提出,數據是AI大模型的勝負手。此次南方財經全媒體記者在線下與他對話過程中,他進一步延伸和完善瞭這個觀點,並且還從數據角度出發,表達瞭自己對“百模大戰”終局的看法。

此外,作為一名企業傢、深圳市人大代表,賈西貝就如他的名字那樣,“賈賈為真”,敢於提出新觀點,他在采訪中呼籲道,AI大模型領域急盼一套“專精特新”政策,以此逆轉馬太效應,激發創新生態。

離數據用光也就剩下3年時間

南方財經:假設今天全球陷入數據荒,這將會對AI的發展產生什麼影響?

賈西貝:我之前看到一個統計,說是2026年左右,全世界能夠投喂給大模型的數據將告罄。按這個統計,離數據用光也就剩下3年時間。雖然自然產生的數據可復制、可復用,但卻像地層沉積的煤炭、石油等能源一樣,具有不可再生性,一旦錯過瞭當時的生成環境,就很難在後期重復生成。同時,訓練數據的收集需要人類社會的長期積累,不是啥時候想生成就生成。雖然AI合成數據已經在訓練中越來越多地使用,但從長期效應來看仍有數據污染、技術抄襲等諸多爭議。就像能源領域節能低碳成為全球議題一樣,AI領域節約使用數據、降低數據消耗速度的“節數低數”模型也在逐漸成為研究熱點。

再者,大模型講求“大”,而這個“大”是呈指數級別的消耗數據。例如,北京最近制定的大模型扶持政策,定下的選拔門檻是10億參數以上。而這個門檻放到幾年前,幾乎沒有人能達到,那時候1000萬參數就已經是天花板級別瞭。但現在中國進入“百模大戰”新紀元,尤其這個“戰”包含瞭大傢對“智能湧現”的追求。好比說,大模型是一個對數據有著巨大食量的小孩,若是有一天這個小孩沒有可食用的數據瞭,那麼他的智力就停滯瞭。若是保證瞭其攝取的營養,當大模型突破瞭一定參數之後,就會出現“智能湧現”,模型理解力將有一個巨大的飛躍,可以說是大模型裡最有魅力的地方。

目前業界認為,智能湧現的最低閾值需要600億參數以上。而從ChatGPT的經驗來看,用語元(Token)衡量的訓練數據規模,常常是參數規模的數十甚至更多倍。參數規模的爆發,伴隨的是語料算料需求的更猛烈的爆發。就像地球生物進化中有寒武紀生命大爆發一樣,我們已經看到瞭“百模大戰、千模大戰”的爆發和追求更強智能參數的爆發。往後模型爆發和參數爆發互相激蕩,將帶來瞭更猛烈的數據爆發。因此,我會提出數據是AI大模型的勝負手

可能有人會說,中國有14億人口和5千餘傢上市公司,應該在數據上是長板。但據我觀察,現今中文數據大而不強。因為數據與算法模型不同,後者可以重金懸賞,但前者由於數據安全、個人信息保護等制約,在流通上有諸多限制,不僅跨境難,跨企業也難。此前高文院士也在演講中提到,全球通用的50億大模型數據訓練集裡,中文語料的占比僅為1.3%。因此,如果說全球都面臨著數據荒問題,那麼中文數據恐怕會更荒。

不僅如此,大模型這個小孩還要食用品質優良的數據。ChatGPT最重要的“秘方”之一就是訓練數據的篩選規則,據說,ChatGPT真正用於訓練的數據是收集到的數據總量的十分之一。俗話說種瓜得瓜、種豆得豆,若是這個小孩成天學的都是“臟話”,那麼即便用再神奇的魔法,也無法將AI大模型訓練成談吐優雅的紳士。在數據治理領域我們稱之為“Garbage In, Garbage Out(垃圾進、垃圾出)”。因此,訓練數據的數量和質量對大模型的發展都非常重要,若是發展AI卻不重視數據,那麼今後中國在全球AI大模型競爭中,將會誕生一批營養不良的“早產兒”和“野蠻人”。

針對上述數據荒問題,今年4月,華傲數據聯合深圳數據交易所、協會、學會、企業、大學等單位共同組成瞭算料聯盟籌備小組,合力匯集論文、政策、報告、標準、法律、代碼、古籍、中醫藥、基因及蛋白質結構等多模態的訓練數據,為豐富中文訓練數據添磚加瓦,為數據交易增加合成數據、標註數據、模型參數等新專區和新品類

“私有大模型”或是“百模大戰”終局

南方財經:既然數據是大模型的勝負手,那麼從數據的角度出發,你認為“百模大戰”的終局將走向何處?

賈西貝:這就要從大模型的邊界說起。雖然大模型給人感覺很萬能,但大模型的應用也是有邊界的,而這個邊界是由底層訓練數據集決定的。我們數據行業經常把“數據不出門、數據不出服務器”掛在嘴邊。這是由於大模型的訓練過程不天然具有脫敏和去隱私的能力,數據的安全約束也會傳遞給模型,從而私域數據在組織間的隔離要求也會傳導給模型,形成私域模型在組織間的安全隔離,這就是大模型的“數據隔離效應”,就像在大模型之間安裝瞭一道隔離墻。

大模型時代必然是“私有模型不出門、私有模型不出服務器”,那麼基於私有大模型構建的私有應用則是“應用不出門、應用不出服務器”。與開放數據訓練出的公有大模型的天然壟斷趨向不同,數據隔離效應必將造就私有大模型無法贏傢通吃,形成百花齊放、百傢爭鳴的局面。所以說,從數據的角度來看,我認為百模大戰中的相當多的模型最後都會奔向“私有大模型”的星辰大海。

南方財經:這就好像是微信有社交數據大模型、抖音有直播數據大模型,對嗎?

賈西貝:對的。“數據隔離墻效應”會造成大模型衍生開發的應用也相互隔離、協同發展、各擅勝場。

南方財經:那在這個隔離效應下,不同的大模型之間還能夠形成對壘嗎?

賈西貝:確實公有大模型會更加短兵相接,因為誰都能參戰。而私有大模型的競爭烈度會低一點,因為不同商業組織、政府組織之間的數據不論從數據安全、個人信息保護的角度還是從數據權益的角度來看,都不是短時間內可以打通的。雖然我們剛剛講數據會給大模型應用造成限制,但反過來又成為瞭各自的護城河。也正因為數據的“隔離墻效應”,大模型將會走向一個百傢爭鳴的格局。

南方財經:業界還有另一種聲音說,大模型是呈指數迭代升級的。因此,未來通用大模型會吞並掉做垂直領域大模型的,形成一種贏傢通吃的局面。對此你怎麼看待?

賈西貝:贏傢通吃是前一陣子比較占主流的觀點。但我認為做出一個贏傢通吃的大模型,所需要的成本太高瞭。除瞭高達1200萬美元/次的訓練成本,還要算上千萬美元級的數據標註成本,算下來將是以“億美元”為單位的資源火拼。這已經足夠把大多數創業公司淘汰出局。

從歷史來看,這樣一個“投資+技術密集型”的行業很難全棧,或者說很難全產業鏈一傢通吃。就像芯片行業早已從早期英特爾等公司采用的一傢通吃的IDM模式,進入到瞭“Arm的IP授權+百傢爭鳴的芯片設計公司+臺積電代工”的分工模式(Fabless)。全棧模式除瞭數據門檻,重復投資的代價也很高。所以說,現在業內有很多投資人說通用大模型的入門之戰已經結束瞭,留在後面的是產業鏈之戰、生態之戰。

南方財經:所以現在大傢的共識已經出現瞭變化,是嗎?

賈西貝:AI這個領域很新,這裡面不斷會冒出新的觀點,同時觀點過時的速度也很快,這個月形成的共識,下個月就會被打破,大傢都在經歷不斷被“打臉”的過程。

大模型領域呼喚“專精特新”

南方財經:如果說通用大模型不是大傢都能參與的遊戲,那麼創業者應該以何種方式入局參賽呢?

賈西貝:我認為AI往後發展將非常類似芯片這種高端制造業的發展,因為這兩者都是“資金+技術”密集型的行業。目前芯片行業已經被證實瞭要走“三分協作”的模式,即分段創新、分域競爭、分工協作。例如,ASML造光刻機,日本公司造半導體材料,Arm提供IP核和指令授權,高通做設計,臺積電做代工制造,日月光做封測,這個產業鏈不是一傢通吃,而是各占一段,分段創新,每一段的龍頭企業都把那一段的技術做到極致。即使同在芯片的設計制造環節,也是德州儀器專攻模擬芯片,英特爾做CPU芯片,英偉達做GPU芯片。大傢錯位競爭,避免重復造輪子,把每一分錢都投資在自己擅長的領域裡,盡全力做到全球最好。

因此,我認為未來AI領域也將走向這樣的模式,有一類“賣水”的公司,如專門負責制造租賃算力的芯片公司和雲計算公司,負責研發數據及語料庫算料庫的數據質量、篩選、標註公司;有一類“培植土壤”的公司,如專門負責研發AI框架的公司,負責研發通用大模型的公司;還有一類“培育種子”的公司,如垂類大模型公司、擅長做領域微調的專用大模型公司;以及一類在“水、土壤和種子”的支撐下“種樹”的公司,如AI應用公司。那麼這對創業者來說,他們就可以通過分段創新、分域競爭的方式加入到AI浪潮中。

此外,分工協作是普遍優於“遍灑胡椒面”式的創新,尤其是對一個城市來說,得產業鏈者,方得天下。因為產業鏈背後催生的是一整套生態,每傢企業都是站在別人的肩膀上,最終以疊羅漢的方式誕生一個巨人。

南方財經:這麼看來未來城市管理者從中協調的作用會變得重要。尤其是讓AI產業全面發展的艱辛程度,可能並不亞於培養一個小孩。那麼未來城市管理者可以制定什麼樣的政策來呵護AI產業這個小孩呢?

賈西貝:一花不是春、獨木不成林。我特別喜歡中國在鼓勵先進制造業發展方面出臺的一系列“專精特新”政策。這個支持中小企業發展的政策,一定程度上逆轉瞭馬太效應,打破瞭大公司的壟斷生態,培育瞭各個細分領域充滿活力的隱形冠軍企業,催生瞭更具生命力的百傢爭鳴的中小企業創新。

從公司發展周期來看,大公司一般都會趨於保守,而小公司則在創新上表現得更加出色。例如,上一波AI浪潮的引領者是研發AlphaGO的DeepMind公司,這一波引領大模型的公司是研發ChatGPT的OpenAI公司,以及機器人領域明星企業波士頓動力公司,它們都是中小企業。雖然這3傢公司最終都被巨頭收購或資助,但是它們在初創公司時期所產生的創新力,引領瞭整個產業界的變革。這甚至對全球都產生瞭非常深遠的影響。

這也是為何現在特別多院士和專傢在呼籲“開源開放”,因為開源是打造共生體系的基礎。但這個我認為還不夠,我想在此進一步提出一個觀點,大模型領域呼喚“專精特新”,這個行業也需要一套符合自身發展特點的“專精特新”政策。

點讚(0) 打賞

评论列表 共有 0 條評論

暫無評論

微信小程序

微信扫一扫體驗

立即
投稿

微信公眾賬號

微信扫一扫加關注

發表
評論
返回
頂部