隻要輸入一段文字,就能輕松生成視頻,畫面清晰豐富,栩栩如生。近日,美國人工智能研究公司OpenAI發佈的文生視頻模型Sora在全球引發關註。

一些業內人士指出,Sora將引領新一輪行業變革,與此同時,這一技術帶來的“虛實難辨”的風險,也引發人們的警惕與擔憂。Sora究竟基於怎樣的技術原理,將給我們的生活帶來怎樣的影響?記者采訪瞭有關專傢。

僅需輸入文字指令就能生成60秒視頻,效果逼真自然

在人群中行進的春節舞龍隊伍、踏過白雪覆蓋的草地的猛獁象、動物運動員參加海上自行車比賽……在各大社交媒體上,Sora的演示視頻獲得大量轉發。

根據OpenAI官方介紹,Sora能根據文字指令,創作長達60秒的視頻。視頻包含多角度鏡頭,不僅能夠生成具有連貫性的場景,還能夠模擬復雜的場景和角色表情,為視頻增添更多細節和想象力。

例如,根據文字“一位時尚女性走在充滿溫暖霓虹燈和動畫城市標牌的東京街道上,她穿著黑色皮夾克、紅色長裙和黑色靴子,拎著黑色錢包。她戴著太陽鏡,塗著紅色口紅。她走路自信又隨意。街道潮濕且反光,在彩色燈光的照射下形成鏡面效果。許多行人走來走去”的提示,Sora生成瞭一段60秒的視頻,畫面質感高級,人物肌膚紋理的細節逼真。有網友表示,如果不註明AI生成,自己完全分不出真假。美國特斯拉公司首席執行官埃隆·馬斯克也感嘆:“人類認賭服輸。”

近日,比利時佈魯塞爾,Sora模型根據文本內容生成的視頻正在智能手機上展示。

不過,一些視頻也存在穿幫或不合常理之處。例如,文字提示為“一隻穿著黑色連帽運動衫的電腦黑客拉佈拉多獵犬坐在電腦前,當它快速打字時,屏幕的眩光照射在狗的臉上”的視頻中,“電腦黑客拉佈拉多獵犬”在一個貼滿海報的房間內,駕輕就熟地運用鍵盤,但屏幕的眩光同時也照亮瞭顯示器的背面。而另一個被描述為“低至地面的攝像機密切跟蹤叢林中的螞蟻,深入地下進入它們的世界”的視頻裡,超微距追蹤蟻群的效果堪比紀錄片,但出現的螞蟻都隻有四條腿。

雖然Sora仍有弱點,但從當前展示的效果來看,Sora顯著領先於其他文生視頻模型。有業內人士指出,Sora的誕生推動AI視頻生成“進入瞭一個全新的時代”。

逼真視頻合成的背後或是對真實物理世界規則的觀察與重現

據OpenAI官網介紹,Sora模型基於Transformer架構,通過訓練,Sora學會瞭理解和處理文本提示,將用戶的描述轉化為視頻內容。

從ChatGPT到Sora,從文本到圖像再到視頻,人工智能大模型何以合成出有意義、有價值的內容?在浙江大學人工智能研究所所長吳飛看來,這一次次帶來震撼的技術背後,都遵循著同一個原理:對合成內容中的最小單元進行有意義的關聯組合。“比如,在保持連貫的上下文語境中,對若幹個單詞進行有意義線性組合,從而連綴成一個會意句子;在保持合理的空間佈局下,對眾多圖像小塊進行有意義結構組合,拼合為一幅精彩圖像;在保持一致的連續時空內,對一系列時空子塊進行有意義時空組合,從而拼接成一段動感視頻。”

吳飛告訴記者,隻要給定足夠多的句子,Transformer架構就可學習句子中單詞與單詞之間的共生關聯關系。“比如,‘項莊舞劍,意在沛公’這樣的句子在若幹篇文章中出現,那麼Transformer就會認為‘項莊’‘舞劍’‘沛公’等單詞之間存在共生關系,於是就在它們之間建立關聯。”在對海量語料數據庫進行學習的基礎上,人工智能算法就可建立起一個巨大無比的單詞共生關聯網絡圖。此後,每當人們給定一個單詞,算法就可按照要求,從單詞共生關聯網絡圖中找到下一個與之關聯關系最密切的單詞,作為給定單詞的後續單詞,最終達到自然語言合成的目的。

人工智能程序一旦捕獲瞭單詞與單詞之間的共生關聯,就可利用這種關聯來合成句子。而如果將圖像切分為空間子塊,或者將視頻切分為時空子塊,人工智能模型去學習這些子塊在空間維度中的佈局分佈、在時間維度上的連續變化等信息,同時學習子塊之間運動、顏色、光照、遮擋等復雜視覺特征,就可能重建、合成新的視頻序列。

吳飛介紹,Sora先是將文本單詞和視覺子塊映射到同構低維隱性空間,在這一低維隱性空間中引入擴散模型,對視覺信息加噪和去噪反復迭代,猶如先破壞再重建般學習,千錘百煉地挖掘文本單詞、空間子塊和時空子塊之間的關聯關系。“這就好比魯班學藝,不斷將大橋拆散再拼裝,從這個反復過程中知曉它們的支座系統、橋墩、橋臺和墩臺之間的組合關系,從而練就重建大橋的能力。”吳飛說,正因如此,Sora合成視頻的過程並非是簡單隨機的“鸚鵡學舌”,而是對物理世界“昨日重現”般的重建。

Sora誕生帶來更多可能性,AI發展的步伐進一步加快

一些專傢指出,大模型驅動的生成式AI具有極為廣闊的應用前景,有望為眾多行業帶來強大的賦能效應。

工信部信息通信經濟專傢委員會委員劉興亮此前在接受媒體采訪時表示,Sora的誕生標志著AI技術在內容創作領域的一個新紀元。在中央財經大學數字經濟融合創新發展中心主任陳端看來,長期來看,Sora將遠遠不隻是內容生產工具,其構建的基於三維物理世界來創造數字原生世界的強大引擎,將給一些產業從底層工具層面帶來變化,形成深遠影響。

OpenAI官網截圖。

“Sora隻是小試牛刀,它展現的不僅僅是一個視頻制作的能力,而是大模型對真實世界有瞭理解和模擬之後,會帶來新的成果和突破。”360集團創始人周鴻禕認為,有大模型技術作為基礎,加上人類知識的引導,可以創造各個領域的超級工具,“一旦人工智能接上攝像頭,把所有的電影都看一遍,把YouTube上和TikTok的視頻都看一遍,對世界的理解將遠遠超過文字學習,一幅圖勝過千言萬語,而視頻傳遞的信息量又遠遠超過一幅圖,這就離通用人工智能(AGI)真的不遠瞭。”

通常而言,AGI是指擁有與人類相當甚至超過人類智能的人工智能類型,不僅具有像人類一樣進行感知、理解、學習和推理等基礎思維能力,還能在不同領域靈活應用、快速學習和創造性思考。

不過,也有一些專傢對此提出異議。圖靈獎得主楊立昆認為Sora並不理解物理規律,隻是基於規模訓練去擴展瞭圖像。他在社交平臺上發文表示:澄清一個誤解,從提示中生成大部分看起來逼真的視頻並不表明系統理解物理世界,生成與世界模型的因果預測有很大不同。在楊立昆看來,通過生成像素來構建世界模型的方法,註定會失敗。

“實際上,我們現在還無法清楚定義AGI。人類對自己如何產生意識、形成各種能力都無法理解,目前奢望像人一樣的人工智能仍然隻是幻想。”吳飛說。

中國企業在人工智能一些細分領域已具備國際競爭力,但仍有短板

AI寫詩、AI畫圖、AI音樂……近年來,一系列利用人工智能技術生成內容的湧現,讓不少人感嘆“未來已來”。事實上,不僅在藝術創作領域,AI技術還在許多行業得到應用。

當地時間2月29日,一年一度的世界移動通信大會(MWC)在巴塞羅那落下帷幕。本屆MWC上,科大訊飛展出瞭其自研的星火認知大模型,會話智能等AI解決方案。據介紹,該認知大模型擁有跨領域的知識和語言理解能力,能夠基於自然對話方式理解與執行任務,並從海量數據和大規模知識中持續進化。近期發佈的V3.5版本的語言理解、數學能力已超過GPT-4Turbo,將國產大模型推向新高度。

日前,清華大學官網發佈的一則新聞稱,清華大學與北京宣武醫院團隊成功進行首例無線微創腦機接口臨床試驗。手術後,一位四肢癱瘓14年的患者在接受居傢腦機接口康復訓練後,實現瞭自主喝水等腦控動作。

首例患者通過無線微創腦機接口成功實現腦控抓握。來源:央視新聞

2月29日,國傢自然科學基金委員會發佈2023年度中國科學十大進展,其中,“人工智能大模型為精準天氣預報帶來新突破”位列第一。“人工智能大模型為精準天氣預報帶來新突破”是來自華為雲計算技術有限公司的研究成果,該模型能夠預報7天內的地表層和13個高空層的溫度、氣壓、濕度、風速等氣象要素,僅需10秒即可完成全球7天重要氣象要素的預報,計算速度較數值方法提升1萬倍以上。

當前,我國在人工智能技術和大模型領域已經取得瞭顯著的進展,但與國際領先水平相比,仍存在一些短板。在商務部研究院電子商務研究所副研究員洪勇看來,國際上的部分大型科技公司憑借雄厚的技術積累和資源在人工智能賽道占據領先地位。“中國企業在一些細分領域已具備國際競爭力,但仍有短板。當下需要加強基礎科研、培養高層次人才、建立合規體系,並積極參與國際合作與競爭,進一步提升在全球人工智能領域的地位。”

AI熱潮在創造許多新機遇的同時,也不可避免地帶來前所未有的挑戰。在今年1月的美國民主黨初選投票前,部分選民接到“美國總統拜登”來電,隨後初步調查顯示,這些來電中的聲音是由人工智能生成的。

周鴻禕指出,文生視頻的“深度偽造”技術可能引發欺詐問題。“例如利用Sora偽造一個以假亂真的視頻發給你傢裡人,說你出事瞭,說你受傷瞭,現在住在醫院裡,趕緊給你微信打款,給你轉賬,這就非常危險。”

“人工智能是未來的重要發展方向,在構建有效監管體系的同時,也要避免‘一管就死’。”全國政協委員、金杜律師事務所高級合夥人張毅建議,應該盡快推進人工智能法的出臺,構建人工智能算法治理體系,彌補監管體系空白,同時引入“監管沙盒”制度,允許算法及人工智能企業在監管機構的監督下,在相對可控的環境內進行試驗性開發、測試和驗證。

點讚(0) 打賞

评论列表 共有 0 條評論

暫無評論

微信小程序

微信扫一扫體驗

立即
投稿

微信公眾賬號

微信扫一扫加關注

發表
評論
返回
頂部