作者error405 (流河=L)
看板AI_Art
標題[閒聊] AI邊打寶可夢邊自我修正與進化
時間Sat May 23 09:52:28 2026
https://www.youtube.com/watch?v=qCFyprzrCvA
這段影片詳細介紹了由普林斯頓大學(Princeton University)研究人員提出的 AI 突破
性技術——「持續駕馭」(Continual Harness)。這項技術打破了傳統 AI 的訓練模式
,讓 AI 具備在執行任務的過程中「一邊運行、一邊自我修正與進化」的能力。
以下是該篇 AI 技術新聞的重點摘要:
核心突破:從「手動重設」到「自主進化」
傳統模式的瓶頸: 過去要讓 AI 代理(Agent)變得更好,研究人員必須在 AI 失敗
後,手動調整代碼或提示詞(Prompt),然後將系統「重設(Reset)」並重新測試
[01:23]。
Continual Harness 的創新: 這套新架構讓 AI 就像有機體一樣。它在執行任務(
影片中以玩《寶可夢》遊戲為例)的同時,會自我監控、分析失敗原因、重寫內部指令,
並在不重設、不中斷運行的情況下,立即應用這些改進 [01:37]。
AI 如何進行自我優化?
系統大約每隔幾百步就會暫停並分析之前的表現,自主修改自身的四個核心組件 [02:34]
:
重寫系統提示詞(System Prompt): 修改自己的內部操作手冊 [02:43]。
建立/修改專屬子代理: 根據需求(如戰鬥或導航)創建專門的 AI 助手 [02:50]。
構建技能庫: 編寫可重複使用的代碼函數,留待以後調用 [02:59]。
維持持久記憶: 儲存重要事實與策略,且記憶在更換新的遊戲場景時依然能保留並
跨環境轉移(遷移學習) [03:06, 08:43]。
驚人的實驗成果
強大的解題與展現元認知(Metacognition): * 在早期的實驗(Gemini Plays Pok
émon)中,AI 曾因為選單導航不斷失敗,便自行刪除舊工具並重新編寫了一個新工具,
還在記憶中寫下「我必須信任我自己剛創造的新工具」 [04:43]。
在《寶可夢 水晶版》中,AI 曾在一個邏輯死胡同裡困了 16,436 回合,但它最
終在沒有人類干預的情況下,自己發現錯誤、更新記憶並脫困 [05:40]。
AI 甚至在最終決戰中,自己發明了名為「殭屍鳳凰行動(Operation Zombie
Phoenix)」的複雜多階段戰術,而非複製訓練數據 [06:10]。
幫助訓練小型模型: 這種自我改進的系統還被用來引導、訓練更小型的開源 AI 模
型。在不重設的情況下,透過即時的引導與修正,小型模型也成功通過了原本無法跨越的
遊戲關卡 [03:38, 04:21]。
潛在風險與局限性
能力門檻限制: 研究團隊誠實指出,這項技術存在「能力門檻」[09:14]。如果基礎
模型不夠聰明,自我改進的循環反而會導致錯誤診斷,進而胡亂修改,陷入越改越差的「
死亡螺旋」[09:21]。只有在超越特定智力門檻後,這種正向的「自我提升循環」才會爆
發 [09:36]。
未來的深遠影響
邁向真正的自主 AI(Stateful AI): 現今多數 AI(如 ChatGPT)都是「無狀態的
(Stateless)」,每次對話都是全新開始,不會記得上次的內容 [08:10]。而
Continual Harness 代表了架構的轉變,讓 AI 能累積經驗、複合自身能力 [08:26]。
跨領域的通用架構: 這套架構並非只能用在玩遊戲,它是一個通用的「具身智能(
Embodied AI)」框架,未來可廣泛應用於機器人、自動駕駛汽車、自動化數位助理及複
雜軟體環境的管理 [06:56]。
完全開源: 普林斯頓大學已將此項研究的代碼、方法及訓練程序完全開源,預期將
引發一波「具備自主進化能力」AI 系統的爆發式成長 [11:41]。
結論: 這項技術代表著人類可能不再需要時刻待在「修正與訓練 AI 的循環」中。AI 正
在透過不斷累積的自我改進能力,逐漸走向真正獨立、不需人類引導的自主運作時代
[12:31, 12:55]。
--
Gemini3.5整理
以後訓練AI也許是扔給它一堆遊戲玩一個晚上XD
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.237.148 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1779501150.A.99D.html
推 Tosca: 訓練他畫色色 越畫越色~~~~~~~ 05/23 10:01
推 Jotarun: 越學越爛的機會比較高 05/23 10:18
推 gino0717: 教他玩黑白妹 05/23 10:35
推 nicetw20xx: 不喜歡記憶的功能,比較喜歡專案的工作紀錄和主檔 05/23 15:37
推 Kroner: UC2推薦?有人試過嗎?靠譜嗎? 05/23 15:37推 SunnyBrian: 這我同意亮子 05/23 15:58
推 patvessel: 這定義了一套操作規則 但本質上還是上下文的編輯 05/23 16:21
→ patvessel: 在代理人框架下似乎不是什麼很新穎的東西 05/23 16:22
→ patvessel: 除非他說的權重更新有進一步的發展 05/23 16:23
推 Kroner: 求推薦靠譜的復健診所,小弟關節治好再來跪謝! 05/23 16:23→ patvessel: 經歷過上下文汙染就會知道 無狀態本身並不是原罪 05/23 16:25
→ patvessel: 用畫色色的案例來說 現在多模態模型接上畫像生成 05/23 16:26
→ patvessel: 然後構成改善迴圈難度很低 問題其是否真的能分出好壞 05/23 16:27
→ patvessel: 標準還是要人寫 不然只會模式崩潰 05/23 16:27
推 Chricey: 樓上UC2當糖吃,天天走拿飛 05/23 16:27推 patvessel: 玩遊戲可以用勝利失敗來簡單的評價 但是畫色圖可不行 05/23 16:30
→ patvessel: 因為沒有人訓練過AI什麼是色不色的標準 更不要說人類的 05/23 16:37
→ patvessel: 看法其實也不統一 真的讓AI無腦去迴圈 最後大概只會跑 05/23 16:38
→ patvessel: 出整個畫面都是各種乳頭的照片之類的詭異玩意 05/23 16:38
推 Chricey: 剛開始吃UC2,期待 05/23 16:38→ patvessel: 不是說這個研究沒意義 只是他們把最困難的部分 05/23 16:43
→ patvessel: "獎勵函數和目標的設定" 外包給了遊戲這種最簡易的環境 05/23 16:43
推 nicetw20xx: 結果ai生成評估方法逼你貼標客製xD 05/23 19:08
推 Supasizeit: 怎麼跟Hermes講的 87%像 05/23 19:16
推 Kroner: 關節痛按摩有效嗎? 05/23 19:16