AI Agent無疑是當下大模型最激動人心的發展主線 ,被稱為“大模型下一場戰事”、“最後的殺手產品”、“開啟新工業革命時代的Agent-centric”。
11月7日,OpenAI首屆開發者大會
(OpenAI DevDay)
引爆瞭AI Agent。
OpenAI發佈瞭AI Agent初期形態產品GPTs,並推出瞭相應的制作工具GPT Builder。用戶僅僅通過跟GPT Builder聊天,把想要的GPT功能描述一遍,就能生成專屬GPT。專屬GPT可以在日常生活、特定任務、工作或傢庭中更為適用。
為此,OpenAI還開放瞭大量的新API
(包括視覺、圖像DALL·E3、語音)
,以及新推出的Assistants API,讓開發者可以更便捷地開發自己專屬的GPT。
比爾·蓋茨最新發表一篇文章明確提出,5年內AI Agent將大行其道,每個用戶都將擁有一個專屬AI Agent。用戶不需要再因為不同的功能需求而使用不同的APP,他隻需用日常語言告訴他的Agent想做什麼就可以。[1]
GPTs發佈後在一周內,已經累計超過17500多個
那麼,AI Agent究竟是什麼?為什麼如此重要,以至於業界有這麼高的關註度,甚至有學者斷言“美國Agent Store
(智能體商店)
發展得好,這會令中美大模型差距持續拉大”[2]。
01
AI Agent是什麼? 在計算機、人工智能專業技術領域,一般將agent譯為“智能體”,其定義是 在一定的環境中體現出自治性、反應性、社會性、預動性、思辨性(慎思性)、認知性等一種或多種智能特征的軟件或硬件實體。[3] OpenAI將AI Agent定義為,以大語言模型為大腦驅動,具有自主理解感知、規劃、記憶和使用工具的能力,能自動化執行完成復雜任務的系統。[4]AI Agent基本框架如下圖: 基於LLM驅動的Agent基本框架[5] 它具有記憶、規劃、行動和使用工具四個主要模塊: (1)記憶(Memory)。 記憶模塊負責存儲信息,包括過去的交互、學習到的知識,甚至是臨時的任務信息。對於一個智能體來說,有效的記憶機制能夠保障它在面對新的或復雜的情況時,調用以往的經驗和知識。 例如,一個具備記憶功能的聊天機器人可以記住用戶的偏好或先前的對話內容,從而提供更個性化和連貫的交流體驗。 它分為短期記憶和長期記憶:a.短期記憶,所有的上下文學習都是利用短期記憶來學習;b.長期記憶,這為智能體提供瞭長時間保留和回憶 (無限) 信息的能力,通常是通過利用外部向量數據庫和快速檢索,比如某個行業領域沉淀的大量數據和知識。 有瞭長期記憶,很多數據可以被積累下來,使得智能體的可用性更加強大,更具行業深度、個性化、能力專業化等優勢。 (2)規劃(Planning)。 規劃模塊具有事前規劃和事後反思兩個階段。 在事前規劃階段,這裡涉及對未來行動的預測和決策制定,如執行復雜任務時,智能體將大目標分解為更小的、可管理的子目標,從而能夠高效地規劃一系列步驟或行動,以達到預期結果。 在事後反思階段,智能體具有檢查和改進制定計劃中不足之處的能力,反思錯誤不足並吸取經驗教訓進行完善,形成和加入長期記憶,幫助智能體之後規避錯誤、更新其對世界的認知。 (3)工具使用(Tool use)。 工具使用模塊指的是智能體能夠利用外部資源或工具來執行任務。 如學習調用外部API來獲取模型權重中缺失的額外信息,包括當前信息、代碼執行能力、對專有信息源的訪問等,以此來補足LLM自身弱項。 例如LLM的訓練數據不是實時更新的,這時可以使用工具訪問互聯網來獲取最新信息,或者使用特定軟件來分析大量數據。 現在市場上已經存在大量數字化、智能化的工具,智能體使用工具比人類更為順手和高效,通過調用不同的API或工具,完成復雜任務和輸出高質量結果,這種使用工具的方式也代表瞭智能體的一個重要特點和優勢。(4)行動(Action)。 行動模塊是智能體實際執行決定或響應的部分。 面對不同的任務,智能體系統有一個完整的行動策略集, 在決策時可以選擇需要執行的行動,比如廣為熟知的記憶檢索、推理、學習、編程等。 總的來說,這四個模塊相互配合使智能體能夠在更廣泛的情境中采取行動和作出決策,以更智能、更高效的方式執行復雜任務。[6]
02
AI Agent將帶來 更為廣泛的人機融合 基於大模型的Agent不僅可以讓每個人都有增強能力的專屬智能助理,還將改變人機協同的模式,帶來更為廣泛的人機融合。生成式AI的智能革命演化至今,從人機協同呈現瞭三種模式: (1)嵌入(embedding)模式。 用戶通過與AI進行語言交流,使用提示詞來設定目標,然後AI協助用戶完成這些目標,比如普通用戶向生成式AI輸入提示詞創作小說、音樂作品、3D內容等。在這種模式下,AI的作用相當於執行命令的工具,而人類擔任決策者和指揮者的角色。 (2)副駕駛(Copilot)模式。 在這種模式下,人類和AI更像是合作夥伴,共同參與到工作流程中,各自發揮作用。AI介入到工作流程中,從提供建議到協助完成流程的各個階段。 例如,在軟件開發中,AI可以為程序員編寫代碼、檢測錯誤或優化性能提供幫助。人類和AI在這個過程中共同工作,互補彼此的能力。AI更像是一個知識豐富的合作夥伴,而非單純的工具。 實際上,2021年微軟在GitHub首次引入瞭Copilot (副駕駛) 的概念。GitHub Copilot是一個輔助開發人員編寫代碼的AI服務。2023年5月,微軟在大模型的加持下,Copilot迎來全面升級,推出Dynamics 365 Copilot、Microsoft 365 Copilot和Power Platform Copilot等,並提出“Copilot是一種全新的工作方式”的理念。工作如此,生活也同樣需要“Copilot”,“出門問問”創始人李志飛認為大模型的最好工作,是做人類的“Copilot”。 (3)智能體(Agent)模式。 人類設定目標和提供必要的資源 (例如計算能力) ,然後AI獨立地承擔大部分工作,最後人類監督進程以及評估最終結果。這種模式下,AI充分體現瞭智能體的互動性、自主性和適應性特征,接近於獨立的行動者,而人類則更多地扮演監督者和評估者的角色。 人類與AI協同的三種方式[7] 從前文對智能體記憶、規劃、行動和使用工具四個主要模塊的功能分析來看,智能體模式相較於嵌入模式、副駕駛模式無疑更為高效,或將成為未來人機協同的主要模式。 基於Agent的人機協同模式,每個普通個體都有可能成為超級個體。 超級個體是擁有自己的AI團隊與自動化任務工作流,基於Agent與其他超級個體建立更為智能化與自動化的協作關系。現在業內不乏一人公司、超級個體的積極探索。 Github平臺上有一些基於Agents的自動化團隊——GPTeam項目。GPTeam利用大模型創建多個被賦予角色和功能的智能體,多智能體協作以實現預定目標。 比如,Dev-GPT是一個自動化開發和運維的多智能體協作團隊,包含瞭產品經理Agent、開發人員Agent和運維人員Agent等角色分工。這個多智能體團隊可以滿足和支撐一個初創營銷公司的正常運營,這便是一人公司。 又如,號稱是世界上第一個AI自由職業者平臺的NexusGPT。[8]該平臺整合瞭開源數據庫中的各種AI原生數據,並擁有800多個具有特定技能的AI智能體。在這個平臺上,你可以找到不同領域的專傢,例如設計師、咨詢顧問、銷售代表等。雇主可以隨時在這個平臺上選擇一個AI智能體幫助他們完成各種任務。03
AI Agent將改變軟件的遊戲規則 促進AI基礎設施化 AI Agent正在重新定義軟件。比爾·蓋茨認為,AI Agent將徹底顛覆軟件行業,將影響我們如何使用軟件以及如何編寫軟件。[9] AI Agent將使軟件架構的范式從面向過程遷移到面向目標。現有的軟件 (包括APP) 通過一系列預定義的指令、邏輯、規則和啟發式算法將流程固定下來,以滿足軟件運行結果符合用戶的預期,即用戶按照指令邏輯一步一步操作達成目標。 這樣一種面向過程的軟件架構具有高可靠性、確定性。 但是,這種面向目標的架構隻能應用於垂直領域,而無法普遍應用到所有領域,因此標準化和定制化之間如何平衡也成為SaaS行業面對的難題之一。 軟件架構范式遷移[10] AI Agent范式將原本由人類主導的功能開發,逐漸遷移為以AI為主要驅動力。以大模型為技術基礎設施,Agent為核心產品形態,把傳統軟件預定義的指令、邏輯、規則和啟發式算法的任務層級演變成目標導向的智能體自主生成。這樣一來,原本的架構隻能解決有限范圍的任務,未來的架構則可以解決無限域的任務。[11] 未來的軟件生態,不僅是最上層與所有人交互的媒介是Agent,整個產業的發展,無論是底層技術,商業模式,中間組件,甚至是人們的生活習慣和行為都會圍繞Agent來改變,這就是Agent-Centric時代的開啟。[12] RPA范式(Robotic Process Automation)與APA范式(Agentic Process Automation)的比較[13] 以面壁智能發佈的首個“大模型+Agent”SaaS級產品ChatDev智能軟件開發平臺為例。 該平臺就像一傢完全由AI Agents組成的軟件開發公司,裡面會有CEO、CTO、開發經理、產品經理、測試專員、監督員等各類Agent角色。 用戶隻需要把明確的需求告訴CEO角 色的Agent,這個CEO就會基於用戶的需求,組織整個軟件開發流程。 最後交付給用戶的包含瞭軟件產品和整個開發過程中的代碼,並且所有流程都是自動化的。 [14] 這將使軟件行業降低生產成本、提高定制化能力,進入軟件的“3D 打印”時代。04
AI Agent的展望與挑戰 AI Agent是人工智能成為基礎設施的重要推動力。回顧技術發展史,技術的盡頭是成為基礎設施,比如電力成為像空氣一樣不易被人們察覺,但是又必不可少的基礎設施,還如雲計算等。 當然這個要經歷以下三個階段: 創新與發展階段 --新技術被發明並開始應用; 普及與應用階段 --隨著技術成熟,它開始被廣泛應用於各個領域,對社會和經濟產生深遠影響; 基礎設施階段 --當技術變得普及到幾乎無處不在,它就轉變成瞭一種基礎設施,已經成為人們日常生活中不可或缺的一部分。 幾乎所有的人都認同,人工智能會成為未來社會的基礎設施。而智能體正在促使人工智能基礎設施化。這不僅得益於低成本的Agent軟件生產優勢,而且因為Agent能夠適應不同的任務和環境,並能夠學習和優化其性能,使得它可以被應用於廣泛的領域,進而成為各個行業和社會活動的基礎支撐。 人工智能智能體應用一覽圖[15] Agent下一步可能會朝著兩個方向同時迭代: 一是與人協助的智能體,通過執行各種任務來協助人類,側重工具屬性; 二是擬人化方向的迭代,能夠自主決策,具有長期記憶,具備一定的類人格特征,側重於類人或超人屬性。 從技術優化迭代和實現上來看,AI Agent的發展也面臨一些瓶頸: 首先,我們通過OpenAI的GPTs也能看到,LLM的復雜推理能力不夠強、延遲過高等問題抑制瞭Agent應用的真正成熟。這也是接下來業界工程優化和技術科研突破的方向。 其次,多智能體 (Multi-agent) 發展仍面臨較大困境。 多智能體是一個非常復雜的學術研究方向,隨著智能體開始普及到大眾市場,已經成為重要的技術現實問題。 例如,斯坦福的虛擬小鎮就包含瞭25個智能體的多智能體研究。但是小鎮框架開源之後,根據開發者的測試一個Agent一天需要消耗20美金價格的token數,因為其需要記憶和行動的思考量非常大。這一價格是比很多人類工作者更高的,需要後續Agent框架和LLM推理側的雙重優化。 突破多智能體的發展困境,是未來智能體社會 (Agent Society) 建立的重要前提。多智能體協同可以組成智能體社會這一最高形態的技術社會系統。智能體社會具有復雜、動態,自組織和自適應的特性,能夠協作、競爭、不斷進化。 在這個社會系統中,智能體能夠根據目標和環境變化執行復雜靈活的任務,並與人類及其他智能體進行高級別、多維度的互動和協作。智能體社會不僅有助於人類探索和拓展物理及虛擬世界,還能增強和擴展人類的能力與體驗。 同時,這些發展趨勢預示著AI Agent可能面臨諸如安全性與隱私性、倫理與責任、經濟和社會就業影響等多方面的挑戰。 (1)安全性和隱私性是智能體的關鍵特性,對其穩定運行和對用戶及社會的保護至關重要。這兩個因素直接影響AI代理的信任度和控制力。 若AI代理出現漏洞、遭受攻擊或數據泄露等問題,則可能導致對用戶或社會的損害。比如,OpenAI的GPTs在發佈後不久,出現瞭安全漏洞,導致瞭用戶上傳的數據泄露。 (2)倫理和責任是智能體的核心原則,決定其價值觀和目標,以及對用戶和社會的尊重與保護。 這些原則直接影響智能體的可信度和可控性。若智能體表現出不公平、不透明或不可靠等問題,可能引發用戶或社會對技術的排斥。責任歸屬也是智能體的關鍵議題,人與智能體協同中的責任歸屬不清晰或不公正也會帶來嚴重後果。 (3)經濟和社會就業影響。 未來工作中的一個重要挑戰是人類與智能體之間的競爭。例如,AI自由職業者平臺NexusGPT的出現便是對傳統自由職業者的沖擊。未來的社會工作協同中,也會出現越來越多的智能體,雇主基於效率和效益考慮,可能會盡量減少人力投入。隨著智能體技術的成熟,我們必須提前思考這些技術發展對社會和個人職業生涯的長期影響。以ChatGPT的發佈為分水嶺,全球自由職業平臺上的寫作/編輯類從業者的數量和收入都進入瞭斷崖式下跌的軌道[16]
參考資料來源:
[1]https://www.gatesnotes.com/AI-agents
[2]https://mp.weixin.qq.com/s/EWvw83Gch_xWmAcT7dVV5A
[3]全國科學技術名詞審定委員會.《計算機科學技術名詞(第三版)》[M].北京:科學出版社,2018年12月.
[4]如果從AI Agent概念入手,將它翻譯為“AI代理”,這是不準確的。“agent”這個詞源自拉丁語動詞“agere”,意為“做”或“行動”(“to do”),涵蓋瞭廣泛的行為和活動。從這個詞演變而來名詞形式“agents”直譯為“行動者”或“執行者”,用於描述那些執行動作或具有行動能力的實體。
[5]https://lilianweng.github.io/posts/2023-06-23-agent
[6]https://lilianweng.github.io/posts/2023-06-23-agent
[7]https://mp.weixin.qq.com/s/AluYfD6BQOkLo6XpJMyQnQ
[8]https://nexus.snikpic.io/
[9]https://www.gatesnotes.com/AI-agents
[10]https://mp.weixin.qq.com/s/X27SWFeZsXmbuFZEow8DLQ
[11]https://mp.weixin.qq.com/s/X27SWFeZsXmbuFZEow8DLQ
[12]騰訊科技.《大模型能力競爭終局已定》
[13]過去RPA僅能替代簡單、機械的人力工作,一些復雜的流程仍舊依賴人工,存在兩大難題:編寫RPA工作流本身需要繁重的人類勞動,成本較高;復雜任務非常靈活,通常涉及動態決策,難以固化為規則進行表示。而在APA范式中,Agent可以根據人類的需求自主完成工作流構建,同時其可以識別人類需求中需要動態決策的部分,將自動編排進工作流中,並在工作流執行到該部分時主動接管工作流的執行完成相應復雜決策。
[14]https://baijiahao.baidu.com/s?id=1782631006897855123&wfr=spider&for=pc
[15]https://github.com/e2b-dev/awesome-ai-agents
[16]Hui X, Reshef O, Zhou L. The Short-Term Effects of Generative Artificial Intelligence on Employment: Evidence from an Online Labor Market[J]. Available at SSRN 4527336, 2023.
發表評論 取消回复