近日國外一位程序員Peter Whidden對AI模型進行瞭長達5萬小時的訓練,試圖教AI如何玩《寶可夢 火紅》。

AI耗時7千小時通關《寶可夢》首個道館

Whidden讓AI通過模擬器上的控制輸入與遊戲進行交互,並將學習會話設置為每次遊玩兩個小時,他還通過加速讓AI在六分鐘左右完成,甚至還同時運行40個會話,從而加快瞭AI的學習過程。

由於AI算法本質上並不在意如何通關遊戲,因此Whidden設定瞭獎勵目標,每當AI發現新東西時就能獲得獎勵點。這是利用屏幕中像素點變化來觸發的,不過這也導致AI會長時間盯著有動畫效果的水面發呆。

AI耗時7千小時通關《寶可夢》首個道館

而與新事物有關的獎勵機制,也令AI選擇放棄戰鬥或抓捕寶可夢,Whidden為此添加瞭與寶可夢等級相關的獎勵機制。但這一系統也導致瞭意外,AI在存放和替換寶可夢時會讓獎勵分數下降,因此在之後的行動中AI完全避開寶可夢中心,使得隊伍得不到治療,Whidden不得不再次調整獎勵系統。

雖然AI不擅長人類行為,但也做出瞭更加深奧的行動,Whidden意識到AI走出具體且奇怪的路徑,其實是為瞭保證隻需扔出一個精靈球就能捕獲野生寶可夢,並非是無意義的行動。

不過AI在花費7千個小時擊敗第一個道館後,卻在月見山迷路許久,耗時5萬小時後還是沒能找到第二個道館。但AI也貢獻瞭許多神奇操作,比如AI最喜歡購入鯉魚王,累計購買超過1萬次;在野外抓捕到小拉達時,將其命名為“AI”。

AI耗時7千小時通關《寶可夢》首個道館

點讚(0) 打賞

评论列表 共有 0 條評論

暫無評論

微信小程序

微信扫一扫體驗

立即
投稿

微信公眾賬號

微信扫一扫加關注

發表
評論
返回
頂部