未來的 AI 手機應該是什麼樣兒的?
在上個月的 WMC2024 上,德國電信聯合高通、Brain.ai 推出瞭一款突破性創新的概念 AI 手機 T phone。與傳統智能手機不同,這款手機主打一個“無 App”,它清除瞭屏幕上的密密麻麻的 App 圖標,隻留有一個按鈕用來激活手機裡的 AI 助手,讓用戶通過類似 ChatGPT 的操作界面來交互。
這款手機的長期願景是消滅 App,並幹掉 App Store,德國電信 CEO 蒂姆·霍特格斯(Tim Hoettges)在大會上給出瞭瘋狂的預測:“手機 App 將在未來五到十年內消亡”。
為瞭實現這個構想,Brain.ai 在過去幾年間打通瞭幾千款主流 App。比如用一句話來預定餐廳,那麼該手機就需要在地圖、訂餐軟件、日歷和消息應用程序之間來回切換,還需要自己為用戶構建整個流程。這相當於是一個打通瞭多個 App 的 AI Agent,而且沒有 App 的手機自然也會幹掉傳統意義上的 App Store。
“無應用” 意味著手機將會有更簡潔、高效的使用體驗。用戶不必再在茫茫應用海中尋找所需功能,隻需一句話就能搞定一切。但對於我們開發者來說,無應用手機的出現則意味著巨大的挑戰。傳統的開發模式將被徹底顛覆,開發者們需要學習新的開發技術,並適應新的開發模式。
“幹掉 App Store” 則代表著應用生態入口的改變,成為完全脫離蘋果、谷歌掌控的新生態體系。蘋果的 App Store 擁有超過 200 萬款應用和遊戲,去年一年總收入達 893 億美元。
這款概念手機未必就是 AI 手機最終的模樣。距離 ChatGPT 發佈已經過去瞭一年多,它代表瞭人們對大模型加持的手機一個美好想法。
我們現在使用的智能手機實際上已經穩定發展瞭十幾年。2007 年,喬佈斯在第一代 iPhone 發佈會上喊出瞭那句著名的廣告語:“蘋果將重新發明手機”。從那時開始,蘋果手機通過電容屏和多點觸控的交互方式,將諾基亞拉下瞭王座,而 App Store 戰略也創造瞭一個強大的雙邊市場,鑄就瞭現在的開發者生態。
現在,大模型帶來的“智能湧現”現象,超出瞭我們最初的想象,也讓大傢對大模型和手機的結合產生瞭非常高的預期:是不是可以讓手機更加的理解人類,真正成為個人生活中的智能夥伴。未來的手機形態和功能會怎樣?T Phone 隻是其中一種可能性,但它為我們打開瞭一扇通往未來的窗戶。
未來甚至可能不會再有手機,但一定還是有一個超級 App 存在。
Midjourney CEO 說:“在這個時代,矽谷是先相信會有一個超級 App,然後才會相信會有一個生態。”
未來的手機或許更具有顛覆性,最根本的原因還是交互方式再次發生瞭變化。新的交互方式,從之前松散的 GUI 交互,變為跟一個智能體進行交互。這種交互體驗可能是全新的,是一種多媒體形式的 prompts,對於大模型來說,可以是語言,可以是照片,或者一段視頻。
如果用戶與 AI 的交互變得越來越順暢,並且 AI 越來越能理解用戶,用戶可能會越來越依賴 AI 交互,甚至被 AI“圈養”。就像現在我們在抖音或微信視頻號,大部分交互就是滑動和點贊,背後的邏輯是 AI 在幫助推送內容。
無論我們創造什麼樣的東西或生態,它都必須符合用戶的交互習慣,讓用戶離不開它;也必須有商業模式,讓開發者或內容創作者能夠賺錢。目前在我們手機上,最常用的兩個軟件是瀏覽器和 App Store,這兩樣需求一直都沒有變,就算是微信,其實也是集合瞭瀏覽器和 App Store 的能力。
現在,一方面,隨著人機系統交互方式的變革,交互方式、對象和內容都發生瞭變化。因此,未來的瀏覽器肯定不會是現在的樣子。另一方面,這些 App 可能不再需要通過 App Store 下載,因為它們隻需要提供服務即可。所以,未來手機必將產生變革,而交互方式的改變,也必將形成新的生態。
隻是,如果用戶習慣瞭與 AI 的這種交互,那麼未來可能對 App 的交互會減少,尤其是長尾內容的 App。而問題在於,要增加 AI 對你的理解,需要大量的私有數據,而這些數據大部分存在於長尾 App 中。現有的 App 可以利用長尾 App 中的數據來完善自身功能,構建更加完善的用戶服務體系。同時,新的 App 形態也可能會利用大量數據來構建新的生態系統,提供更加個性化和智能化的服務。這樣的話,具有全局訪問能力的可能是系統級別的 App 或硬件入口。這可能為硬件廠商提供瞭一個天然的優勢。
回頭來看,我們會發現世界上這幫最先進的 AI 企業,也在急於找這樣的硬件入口。 例如,OpenAI 投資瞭 AI Pin 和機器人。
目前,雖然我們每天使用最多的是手機,但未來有一天,手機可能並不是最適合 AI 交互的設備。那麼手機及其生態有可能是平穩過渡到下一個生態的橋梁嗎?
vivo 技術規劃專傢袁東認為,當下,包括未來的幾年手機仍會是主流的 AI 交互設備,但未來還有兩個發展方向值得關註:一是智能眼鏡的出現,二是純機器人形態的產品。智能眼鏡可以被看作是一種與人自然交互的產品,類似於 XR 交互,而機器人則是人機協同交互的另一種形態。
小米集團技術專傢王曉濤則認為,未來手機的基礎功能在很長一段時間仍然會保留,但是新的功能會不斷的增加和完善,未來手機的形態也會更加多樣化和靈活,但會向更便捷更易用的形態拓展,比如我們可以解放雙手的可穿戴方向,手表、手環、眼鏡、隱形眼鏡、投影手機甚至更遙遠的芯片植入等等,隨著技術的不斷發展和創新,未來手機的形態會不斷地進化,方便、易用。
OPPO 技術規劃總監陳曉春對手機形態是否變化持有開放又保守的態度,手機是核心隨身電子設備,我們需要計算終端:手機的傳感器幫助我們感知自己和外部環境。例如,在 AI 時代,我們更多地需要對個人和環境的理解,手機的傳感器可以捕捉用戶的動作和情緒,以及與手機相連的可穿戴設備可以捕獲人體和環境信息,幫助模型更好地理解用戶需求。
同時,也會有越來越多輕量級、雲化的設備出現,它們適用於特定的場景。例如,Magic Glass 可以在早晨刷牙時提供天氣信息。手機可能會成為一個功能更全面的端,而其他設備則更輕量級、雲化。
1大模型塞進手機後,開發范式變瞭
今年,手機廠商們都很興奮,同時也有時代的緊促感:OPPO 喊出“2024 年是 AI 手機元年”,AI 手機將和功能機、智能手機的歷史地位並列;魅族宣稱“停止傳統智能手機新項目”;小米在 AI 攝影上做文章;三星新發佈的 Galaxy S24 系列上搭載瞭能處理語音、文本、圖像的端側 Galaxy AI;谷歌發佈瞭一款搭載自傢 AI 模型的手機 Pixel 8 系列;還有消息稱,蘋果與谷歌積極洽談,或將 Gemini AI 引入 iPhone。
AI 智能手機一個標志是擁有“生成式內容”,那麼大模型的能力必不可少,要麼基於雲端要麼基於端側的模型來生成。
其中,vivo 去年宣佈推出瞭藍心大模型,並開源瞭面向手機打造的端雲兩用大模型 BlueLM-7B,據官方介紹,BlueLM-7B 是適合中國開發者的中文開源大模型,在語言理解、文本創作等場景下表現都非常優秀。
小米也於去年迭代瞭 13 億參數和 60 億參數大模型,並官宣跑通端側大模型。今年 2 月,小米發佈瞭一款新手機 14 Ultra,其中首次引入瞭基於大模型的 AISP 影像處理平臺“Xiaomi AISP”,是一個將大模型與手機影像系統結合的平臺,由六種模型技術組成,算力可達 60 TOPS。
OPPO 去年也發佈瞭安第斯大模型 (AndesGPT),以“端雲協同”為基礎架構設計思路,推出瞭多種不同參數規模的模型規格。今年,OPPO 還發佈瞭首個端側應用 70 億參數大語言模型的手機 Find X7,具備一些創新功能,如音頻和文本多模態的通話摘要,以及相機上的後期處理功能。
大模型的參數量很大,動輒百億千億,訓練、推理非常消耗算力,把它們裝進手機裡運行,比在雲端運行難得多。而且模型也並非越大越好,目前幾傢手機廠商都專註於在公共模型的基礎上進行調整和適配,然後將專業領域的模型集成到手機上,並結合 Lora 等技術進行微調,以提高模型的人性化交互能力。
比如 vivo BlueLM-7B 模型,如果使用全精度,需要 28GB 的顯存才能運行。讓大模型適配手機可以使用端側模型的量化、剪枝等策略,將模型變小,同時保持高召回率和快速的推理速度。
我們也由此可見,未來不是每個 App 都會有自己的模型,因為這會導致手機顯存不足。在手機系統中共用一個模型才是一個合理的解決方案。這樣的模型將為開發者提供基礎能力,類似於之前提供的 SDK。
所以,現在的 AI 手機都傾向於提供一個具備公共能力的 Model。開發者在這個基礎上發揮自己的開發能力。例如,相機功能可能不再依賴於傳統的 SDK,而是利用公共模型來實現。未來開發者將基於公共模型來開發 App,可能需要具備一定的模型調優能力,或者通過 Lora 等技術定制自己的模型。
對於開發者來說,變化會很大
為瞭發揮大模型的能力,目前 OPPO 正在對操作系統(OS)進行重構,以整合 AI 能力,打造更智能的 AIOS,將 AI 智能體將內嵌在 OS 中,提供手機設置、服務和調度等功能。這涉及到 OS 控件的優化以及硬件與軟件的協同工作,特別是硬件在執行大模型運算時的效率、效果和功耗控制。
截圖來源:OPPO 聯合 IDC 發佈的《AI 手機白皮書》
vivo 去年也發佈瞭一個全新的自研操作系統,名為藍河操作系統。vivo 稱他們看到瞭人工智能通用化(AGI)時代的機遇,並相信會有真正適合這個時代的操作系統出現。
藍河操作系統全面革新瞭系統、應用、到工具鏈:通過 vivo 計算加速平臺 VCAP 能力實現對推理決策的支持,融合瞭視覺、語音等算法,基於藍心大模型能力實現 AI 服務引擎和多模輸入子系統,讓用戶能夠用多模態輸入輸出來模擬人與人的交互方式。
vivo 對圖形渲染整個流程及關鍵模塊進行瞭全新的設計,推出瞭虛擬顯卡解決方案,創新實現瞭超級渲染樹、並行渲染、異構渲染,解決瞭丟幀、掉幀、幀同步的問題,保障瞭系統顯示始終高效且流暢。並選擇瞭用 Rust 語言,打造高效安全的系統底層,對於前端開發,支持用 JS 語言來構建高效低成本的應用。另外,藍河操作系統兼容不同硬件體系結構,通過內核抽象層實現瞭對不同內核的抽象設計,兼容多種 Posix 標準的內核, 支持 Linux 內核,也兼容 RTOS 內核。目前 vivo Watch 3 上用的就是藍河系統。
應用層則兼容瞭“快應用”生態。快應用是 2018 年九大手機廠商基於硬件平臺共同推出的新型應用生態。用戶無需下載安裝,即點即用。因為在 AI 時代,交互對象有可能是像 Agent 這樣的超級 App。這些 Agent 在進行推理和規劃後,可以將任務原子化,而“快應用”不需要安裝,具有系統級能力,並且可以以插件形式存在於系統中,可以滿足用戶的需求。
對於開發者來說,未來的開發范式將會發生重大變化。
傳統的開發范式是通過 Studio 和 API 來開發 App,以 GUI 形式呈現。未來的開發范式將轉向 GenAI 開發范式,這大約包括四個步驟:首先確定要做的事情;其次,找到基礎模型(foundation model);再次,在基礎模型上進行調整,可以通過 RAG(Retrieval Augmented Generation )、Fine-tuning 等方式;最後對模型進行驗證,評估其召回率和性能,最後部署模型並進行開發交流。
在這個過程中,Prompting 尤為重要,因為它是與模型交互的主要方式。同時,開發者需要具備評估模型的能力,確保模型能夠滿足要求。隨著模型能力的提升,未來可能不再需要 RAG 和 Fine-tuning。
除瞭使用 GenAI 形式開發,開發者還需要采用 Agent 的思路來開發應用。例如,斯坦福大學模擬小鎮的研究,以及 OpenAI 的 GPTs 和流行的 Crew AI 框架,都展示瞭編碼方向的質變。開發者可以通過定義角色和編寫 Prompt 來實現應用的協同運作。
從手機廠商的生態和未來大模型生態的角度來看,手機本身的基於記憶的規劃以及智能體的屬性,可能是決定未來用戶生態入口的關鍵。陳曉春認為,到那時候,手機可能仍然是一個交互的入口,通過模型技術理解周圍事物,最終實現萬物互聯的願景。
2大模型帶來的變化:攝影是落地 C 位
大模型和手機的結合,可以實現 AI 通話摘要、AI 消除等功能,其產生的根本性變化可以從大模型與手機影像的結合上窺見一斑。
我們首先需要明確一點,那就是 AI+ 影像絕不是什麼新鮮事物,甚至很多人都已經習慣瞭 AI 與影像的結合。特別是現在,包括華為、三星等品牌手機,都能實現用手機拍出清晰月亮的照片。
三星客戶體驗主管更是直言:“現在根本不存在真實的圖片。一旦你用傳感器來捕捉某些東西,你就會重現你所看到的。用戶想要一張盡可能準確和完整的照片,為此,我們使用瞭大量的人工智能過濾、修改和優化,同時努力確保符合用戶的意願。”
之前的 AI 作用集中於“美化”,而現在的大模型則可以突破更多限制。手機攝影也就成瞭大模型的落地方式之一:大模型可以用來處理傳統方法和第一代模型無法達到的場景或焦段。比如在 30 倍以上的焦段,常規傳感器和光學系統接受的信號非常微弱,導致拍攝的圖片缺乏細節信息。在這種情況下,傳統方法和第一代 AI 技術幾乎無效。在這種情況下,引入大模型的方案,利用手機強大的計算能力,采用生成式的方式,就可以生成符合客觀條件和實際情況的高質量圖像。這個功能已經在小米手機的 Xiaomi AISP 中實現瞭。
OPPO 在影像上也一直是堅定的計算攝影派。他們認為計算攝影是一個正確的方向,未來手機的交互方式發生改變的話,那語音交互可能並不是最直觀的方式,有時候 10 句話可能還不如一幅圖能直接表達意思。在這種情況下,屏幕依然是一個非常重要的交互界面,影像模組也是如此。另外,因為很多東西需要通過圖像或視頻來記錄我們的真實記憶和美好生活,手機作為隨身設備,其影像功能是一個非常好的耦合點。
在計算攝影這一領域,OPPO 采取瞭相當激進的策略,堅信通過更多的計算來消除或減少計算痕跡,以達到更自然的效果。在手機客觀物理尺寸限制下,尤其是在高倍率放大時,我們無法通過物理或光學方式達到單反級別的高品質,但大模型興起瞭。OPPO 在幾個方向上進行瞭嘗試,比如,通過大模型實現 AI 超清合影或高倍率下的人臉檢測,設定瞭特定場景,使生成過程更加可控,這樣就能實現端側模型中完成人臉識別。還能利用 AIGC 技術來處理細節,比如眉毛和發絲等細節的表現力。這個功能已經出現在今年一月份發佈的 X7 手機上瞭。
總體來看,大模型與攝影的結合,有瞭更充沛的創意發揮空間,有源源不斷的可能性。想要抓住這個機會,客觀上給手機廠商帶來瞭新一輪的技術競賽。
然而這個結合實際上面臨許多挑戰,因為大模型在端側的應用還不是非常成熟。盡管語言大模型在雲端表現更好,但要在手機上,尤其是拍照系統中實時運行大模型,這是一個相當高的要求。
目前開放的視覺大模型主要建立在開放的圖像和數據基礎之上。手機影像處理的圖像與開放數據不一致,尤其是不同手機廠商的主打風格。手機影像處理註重噪聲、顏色、亮度、動態范圍等方面,而這些可能不是開放任務的主要關註點。因此,需要開發一個專門針對手機影像處理的大模型,以滿足其特定的需求和關註點。
將這個模型適配到端側,實時運行,這對硬件支持提出瞭更高要求。除瞭將大模型小型化,還需要與系統緊密結合,比如小米研瞭一套高效的異構並行架構,可以充分調度底層硬件的計算資源,並進行並行加速,結合小米澎湃 OS,來提供更高效的管線管理和數據調度。
另外,如今的文生圖的能力,在光影、構圖、材質、色彩等細節方面已經做得真假難辨,這類的大模型技術對計算攝影的影響將是巨大的。但換個角度來說,我們用影像系統很多是用來記錄真實生活的,所以說在這樣的一個應用途徑裡,我們要把大模型當成瞭一個黑盒子,盡量控制或者是壓制它的生成能力。通過各種各樣的方式、各種各樣的條件,讓它把它的生成能力弱化,弱化到非常低。而在一些傳統模型效果不佳的場景中,如高倍率、超高倍率的情況下,可以選擇性地、在控制范圍內釋放大模型的生成能力。
AI 將帶來新一輪的換機潮
關於 AI 手機的看法,行業內部存在多種定義。IDC 對 AI 手機給出瞭嚴格的定義:端測算力需達到 30TOPS 以上,最低 16GB RAM ,且必須能夠在端側運行大模型,包括諸如 diffusion 等文生成圖模型。這樣的定義使得大多數高端手機都符合 AI 手機的標準。典型的芯片如蘋果的最新 A17 芯片、驍龍 888 三代等都屬於此類。
無論手機能容納多大的模型,毫無疑問的是最強的模型一定會在雲端。在手機上,用戶也需要模型具有實時計算能力,這是端側模型目前最強或唯一的優勢。例如,在支付或面對虛假信息時,端側模型的實時反應對用戶來說至關重要。但“即使手機能夠容納大模型,我們也需要考慮老用戶,不能忽視他們”,vivo 技術規劃專傢袁東表示。
至於雲端的大模型,用戶最關心的是生成質量。如果質量不佳,即使需求不是實時的,用戶也不會滿意。這可能會催生新的商業模式,因為雲端模型的推理成本很高。例如,一些 AI 創業公司訓練 + 生成一張圖片的成本可能就要一元。需要行之有效的商業模式來提高 PMF。
隻是,將大模型塞入手機,目前的手機硬件也不是不存在短板,小米相機部 AI 算法團隊負責人王曉濤認為,目前主要受限於計算能力和存儲空間兩個方面。
對於計算能力,大模型是近兩年興起的,它們有一些獨特的特性。我們現在的端側硬件在生產周期上已經定型,是幾年前的設計。盡管各大平臺廠商都在努力適應或適配大模型,但這些努力主要集中在軟件層面。
過去一年,我們在端側運行大模型的速度雖然提升很快,但這些提升主要來自於軟件優化和後期調整。從硬件本身來看,尤其是端側芯片,對大模型的支持並不理想,這是一個棘手的問題。目前的策略是讓模型適配硬件,即在現有硬件條件下盡可能優化模型。
另一個問題是存儲。移動設備的存儲空間非常有限,尤其是系統占用和用戶可用空間都有明確的標準。大模型的一個顯著特點是它們的大小。將一個大模型搬到手機上可能還可以接受,但如果未來需要同時搬多個大模型,對存儲的壓力將非常大。目前,業界正在討論是否需要在硬件中加入專門用於大模型存取和計算的獨立單元,以避免占用系統資源和用戶空間。
這些問題確實影響瞭大模型與移動端硬件的結合。業界正在討論解決方案,但由於硬件的生產周期限制,我們可能需要等待下一代硬件才能看到實質性的變化。
硬件研發周期實際上取決於整個算力生態的周期,陳曉春補充說。算力上遊的供應商,包括內存廠傢、主芯片廠傢(SoC 廠傢),都需要參與定義產品,這需要一定的時間。另外,在大模型興起之前,數據在存儲和計算之間的傳輸並不被視為一個大問題。但現在,隨著模型變得更大,數據在存算之間傳輸的帶寬需求增加,帶寬也成為瞭一個瓶頸。
還有一個是數值計算問題,這影響到瞭圖像處理和推理速度,尤其是用戶對出圖速度的容忍度。如果將推理放在雲端,加上傳輸延遲,可能會比在端側推理更快,這可能會影響用戶的使用選擇。
隨著越來越多的模型需要推向端側,無論是語言模型還是視覺模型,端側的這兩個瓶頸目前還難以短期內解決。不過,業界正在明確方向,比如嘗試減小模型大小,進行量化、剪枝等優化,以提高模型在特定領域的推理速度。同時,也在探索如何提高存算之間的帶寬,以及如何在圖推理方面進行並行計算。總的來說,雖然大傢都在努力優化,但根本問題的解決需要一定的周期。
雖然存在硬件天花板,但相信大多數人如今已經不會懷疑大模型在手機裡的能力。“所有產品都值得用 AI 重做一遍”這句話同樣適用於手機行業。IDC 預測,2024 年起,新一代 AI 手機將大幅增長,帶動新一輪換機潮。手機廠商在 AI 時代擁有一個天然優勢,因為手機是一個最貼近用戶的第一入口,隨著生成式視頻能力越來越強大,換機需求將越來越強烈,也許未來手機廠商基礎入口地位和優勢將更為明顯。AI 手機的發展,也必將改變生態,誰能抓住機遇,在 AI 時代占據領先地位,將獲得最大一波紅利。
發表評論 取消回复