南方財經全媒體記者 石恩澤 深圳報道

中途迷失、模型偷懶、上下文越長大模型越笨......如果體驗過大語言模型產品,用戶多少會對文本輸入長度帶來的限制有所感觸,比如當想和大模型討論一些稍長的內容,需要拆分輸入,而前面輸入的要點,很快就會被大模型忘記。

這是典型的大語言模型對話缺陷,就像先天有註意力缺陷的兒童,難以專註看完一本新書。而缺陷的關鍵,在於模型缺乏長文本處理能力。這個局面如今被打破。

近日,南方財經全媒體記者從賈佳亞團隊處獲悉,該團隊聯合MIT發佈瞭一項名為LongLoRA的技術。該技術隻需兩行代碼、一臺8卡A100機器,便可將7B模型的文本長度拓展到100k tokens,70B模型的文本長度拓展到32k tokens;同時,該研究團隊還發佈瞭首個擁有70B參數量的長文本對話大語言模型LongAlpaca。

這是賈佳亞團隊繼8月9日發佈的“可以分割一切”的多模態大模型 LISA 後的又一力作。目前該新技術和新模型,已登上各大開源網站的熱榜:hugging face熱榜第一、paperwithcode熱度第一,Github全部python項目熱度第五、github stars一周內破千,Twitter上的相關技術帖子瀏覽量近18萬......

全球首個70B長文本大語言模型

LongLoRA的提出,讓全球大語言模型的對話缺陷有瞭較為清晰的解決方案。

原來大語言模型對長文本處理過程中,計算量的主要開銷集中在自註意力機制(self-attention),其開銷隨著文本長度成平方次地增加。

針對這個問題,賈佳亞團隊介紹,團隊提出LongLoRA技術,並用分組和偏移的方式來對全局自註意力機制進行模擬。

簡單來說,就是將長文本對應的tokens拆分成不同的組,在每組內部做自註意力計算,而分組的方式在不同註意力頭(attention head)上有所偏移。這樣的方式既可以大幅度節約計算量,又可以維持全局感受野(Receptive Field)的傳遞。

令人意外的是,這個實現方法非常簡潔,僅兩行代碼即可完成。自此,幾十頁的論文、幾百頁的報告,不再成為大模型盲區。

此外,LongLoRA還探索瞭低秩訓練的方式。賈佳亞團隊向南方財經全媒體記者表示,原有的低秩訓練方式,如LoRA,無法在文本長度遷移上取得良好的效果。而LongLoRA在低秩訓練的基礎上,引入嵌入層 (Embedding layer和 Normalization layers)進行微調,從而達到可以和全參數微調(Full fine-tune) 逼近的效果。

具體來看,可以參考三個維度表現:

在Perplexity-困惑度上,原有LoRA方法的性能在不斷惡化,而LongLoRA和全參數微調都能在各種文本長度下維持很好的效果;

在顯存消耗上,相比於全參數微調,LongLoRA和原有LoRA都有大幅度的節省。例如,對於8k長度的模型訓練,相比於全參數微調,LongLoRA將顯存消耗從46.3GB降低到25.6GB;

在訓練時間上,對於64k長度的模型訓練,相比於常規LoRA,LongLoRA將訓練時間從90~100小時左右降低到52.4小時,而全參數微調超過1000小時。

綜合來看,極簡的訓練方法、極少的計算資源和時間消耗、極佳的準確性,以及相關技術與模型的開源,令LongLoRA大規模推廣成為可能。

對此,有專業人士評論稱,LongLoRA是大語言模型領域的革新性發明,猶如大語言模型迷宮中的希望之燈。“這代表著業界對長文本大語言模型的重新思考和關註,並有效擴展瞭大語言模型的上下文窗口,以及允許模型考慮和處理較長的文本序列。”該評論人士稱。

看小說、改論文、指點經濟

除瞭技術革新外,大語言模型處理長文本問題的一大難點還在於缺少公開的長文本對話數據。

為此,研究團隊特意收集瞭9k條長文本問答語料對,包含針對名著、論文、深度報道甚至財務報表的各類問答。

光會回答長問題還不夠,該團隊又挑選瞭3k的短問答語料與9K的長問答語料混合訓練,讓長文本大模型同時具備短文本對話能力。這個完整的數據集被稱為LongAlpaca-12k,目前也已經開源。目前開源模型還包括LongAlpaca-7B, LongAlpaca-13B和LongAlpaca-70B。

在LongAlpaca-12k數據集基礎上,研究團隊對不同參數大小7B、13B、70B進行瞭訓練和評測。

賈佳亞團隊向南方財經全媒體記者演示瞭三個應用瞭LongLoRA技術疊加12K問答語料的大模型LongAlpaca效果。

第一個場景是讓系統對一篇論文提出修改意見,從而提升該論文的接收率。

首先,團隊喂取系統讀兩篇新的不同的論文,讓LongAlpaca概括ICLR和CVPR兩個會議之間的風格區別。在LongAlpaca總結提煉出瞭兩種類型的不同之後,團隊又喂取一篇新的論文,讓LongAlpaca模型根據ICLR的審查指南,提出修改意見。經過訓練的LongAlpaca模型可以很輕松地接受新的長篇學術論文,並在學術相關問題上給出相當精準的回答。

(圖片一:LongAlpaca概括ICLR和CVPR兩個會議之間的風格區別)

在場景二下,團隊又演示瞭LongAlpaca模型在頗高閱讀和理解門檻的經濟領域的解讀表現。

根據國際貨幣基金組織從2012年到2023年的全球經濟展望的概述合集,對經濟形勢進行逐年總結以及對未來經濟趨勢進行預測。LongAlpaca告訴我們,2023年全球經濟形勢不明朗,跟2022年相比,增長預計放緩;未來幾年,全球經濟擴張速度偏溫和並將低於預期,而地緣政治緊張、金融市場波動等大的挑戰依然存在,需通過多邊合作和結構性改革小心應對。

(圖片二:LongAlpaca給出未來幾年全球經濟預測)

在場景三下,團隊讓LongAlpaca提煉長篇小說中的觀點,並選取瞭模型是13B參數的LongAlpaca和Llama2,看各自表現。

在詢問有關《西遊記》小說中的問題時,LongAlpaca給出瞭比Llama2更為全面的解釋;在詢問有關《三體》小說中的問題時,LongAlpaca也給出瞭邏輯清晰的回答,而Llama2回答籠統,且答非所問。

從模型給出的答案可發現,一些模型如Llama2可能在預訓練過程中見過相關小說,但如果在提問時進行僅根據小說題目進行短文本提問的話,回答並不理想。

(圖片三:在《西遊記》小說相關問題裡,LongAlpaca VS Llama2的回答)

點讚(0) 打賞

评论列表 共有 0 條評論

暫無評論

微信小程序

微信扫一扫體驗

立即
投稿

微信公眾賬號

微信扫一扫加關注

發表
評論
返回
頂部