IT之傢今日(5月13日)消息,研究人員Sepp Hochreiter和Jürgen Schmidhuber在1997年共同提出瞭長短期記憶(Long short-term memory,LSTM)神經網絡結構,可用來解決循環神經網絡(RNN)長期記憶能力不足的問題。

研究人員推出xLSTM神經網絡AI架構 並行化處理Token

而最近Sepp Hochreiter在arXiv上發佈論文,提出瞭一種名為 xLSTM(Extended LSTM)的新架構,號稱可以解決LSTM長期以來“隻能按照時序處理信息”的“最大痛點”,從而“迎戰”目前廣受歡迎的Transformer架構。

據悉,Sepp Hochreiter在新的xLSTM架構中采用瞭指數型門控循環網絡,同時為神經網絡結構引入瞭“sLSTM”和“mLSTM”兩項記憶規則,從而允許相關神經網絡結構能夠有效地利用RAM,實現類Transformer“可同時對所有Token進行處理”的並行化操作。

研究人員推出xLSTM神經網絡AI架構 並行化處理Token

團隊使用瞭150億個Token訓練基於xLSTM及Transformer架構的兩款模型進行測試,在評估後發現xLSTM表現最好,尤其在“語言能力”方面最為突出,據此研究人員認為xLSTM未來有望能夠與Transformer進行“一戰”。

點讚(0) 打賞

评论列表 共有 0 條評論

暫無評論

微信小程序

微信扫一扫體驗

立即
投稿

微信公眾賬號

微信扫一扫加關注

發表
評論
返回
頂部