[閒聊] AI邊打寶可夢邊自我修正與進化

作者error405 (流河=L)

看板AI_Art

標題[閒聊] AI邊打寶可夢邊自我修正與進化

時間Sat May 23 09:52:28 2026

https://www.youtube.com/watch?v=qCFyprzrCvA

這段影片詳細介紹了由普林斯頓大學（Princeton University）研究人員提出的 AI 突破性技術——「持續駕馭」（Continual Harness）。這項技術打破了傳統 AI 的訓練模式，讓 AI 具備在執行任務的過程中「一邊運行、一邊自我修正與進化」的能力。以下是該篇 AI 技術新聞的重點摘要：核心突破：從「手動重設」到「自主進化」傳統模式的瓶頸：過去要讓 AI 代理（Agent）變得更好，研究人員必須在 AI 失敗後，手動調整代碼或提示詞（Prompt），然後將系統「重設（Reset）」並重新測試 [01:23]。 Continual Harness 的創新：這套新架構讓 AI 就像有機體一樣。它在執行任務（影片中以玩《寶可夢》遊戲為例）的同時，會自我監控、分析失敗原因、重寫內部指令，並在不重設、不中斷運行的情況下，立即應用這些改進 [01:37]。 AI 如何進行自我優化？系統大約每隔幾百步就會暫停並分析之前的表現，自主修改自身的四個核心組件 [02:34] ：重寫系統提示詞（System Prompt）：修改自己的內部操作手冊 [02:43]。建立/修改專屬子代理：根據需求（如戰鬥或導航）創建專門的 AI 助手 [02:50]。構建技能庫：編寫可重複使用的代碼函數，留待以後調用 [02:59]。維持持久記憶：儲存重要事實與策略，且記憶在更換新的遊戲場景時依然能保留並跨環境轉移（遷移學習） [03:06, 08:43]。驚人的實驗成果強大的解題與展現元認知（Metacognition）： * 在早期的實驗（Gemini Plays Pok émon）中，AI 曾因為選單導航不斷失敗，便自行刪除舊工具並重新編寫了一個新工具，還在記憶中寫下「我必須信任我自己剛創造的新工具」 [04:43]。在《寶可夢水晶版》中，AI 曾在一個邏輯死胡同裡困了 16,436 回合，但它最終在沒有人類干預的情況下，自己發現錯誤、更新記憶並脫困 [05:40]。 AI 甚至在最終決戰中，自己發明了名為「殭屍鳳凰行動（Operation Zombie Phoenix）」的複雜多階段戰術，而非複製訓練數據 [06:10]。幫助訓練小型模型：這種自我改進的系統還被用來引導、訓練更小型的開源 AI 模型。在不重設的情況下，透過即時的引導與修正，小型模型也成功通過了原本無法跨越的遊戲關卡 [03:38, 04:21]。潛在風險與局限性能力門檻限制：研究團隊誠實指出，這項技術存在「能力門檻」[09:14]。如果基礎模型不夠聰明，自我改進的循環反而會導致錯誤診斷，進而胡亂修改，陷入越改越差的「死亡螺旋」[09:21]。只有在超越特定智力門檻後，這種正向的「自我提升循環」才會爆發 [09:36]。未來的深遠影響邁向真正的自主 AI（Stateful AI）：現今多數 AI（如 ChatGPT）都是「無狀態的（Stateless）」，每次對話都是全新開始，不會記得上次的內容 [08:10]。而 Continual Harness 代表了架構的轉變，讓 AI 能累積經驗、複合自身能力 [08:26]。跨領域的通用架構：這套架構並非只能用在玩遊戲，它是一個通用的「具身智能（ Embodied AI）」框架，未來可廣泛應用於機器人、自動駕駛汽車、自動化數位助理及複雜軟體環境的管理 [06:56]。完全開源：普林斯頓大學已將此項研究的代碼、方法及訓練程序完全開源，預期將引發一波「具備自主進化能力」AI 系統的爆發式成長 [11:41]。結論：這項技術代表著人類可能不再需要時刻待在「修正與訓練 AI 的循環」中。AI 正在透過不斷累積的自我改進能力，逐漸走向真正獨立、不需人類引導的自主運作時代 [12:31, 12:55]。 -- Gemini3.5整理以後訓練AI也許是扔給它一堆遊戲玩一個晚上XD -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.237.148 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1779501150.A.99D.html

→ error405: #1dlkNERe (AI_Art) 去年貌似還只是普通的玩 05/23 09:57

推 Tosca: 訓練他畫色色越畫越色~~~~~~~ 05/23 10:01

推 Jotarun: 越學越爛的機會比較高 05/23 10:18

推 gino0717: 教他玩黑白妹 05/23 10:35

推 nicetw20xx: 不喜歡記憶的功能，比較喜歡專案的工作紀錄和主檔 05/23 15:37

推 Kroner: UC2推薦？有人試過嗎？靠譜嗎？ 05/23 15:37

推 SunnyBrian: 這我同意亮子 05/23 15:58

推 patvessel: 這定義了一套操作規則但本質上還是上下文的編輯 05/23 16:21

→ patvessel: 在代理人框架下似乎不是什麼很新穎的東西 05/23 16:22

→ patvessel: 除非他說的權重更新有進一步的發展 05/23 16:23

推 Kroner: 求推薦靠譜的復健診所，小弟關節治好再來跪謝！ 05/23 16:23

→ patvessel: 經歷過上下文汙染就會知道無狀態本身並不是原罪 05/23 16:25

→ patvessel: 用畫色色的案例來說現在多模態模型接上畫像生成 05/23 16:26

→ patvessel: 然後構成改善迴圈難度很低問題其是否真的能分出好壞 05/23 16:27

→ patvessel: 標準還是要人寫不然只會模式崩潰 05/23 16:27

推 Chricey: 樓上UC2當糖吃，天天走拿飛 05/23 16:27

推 patvessel: 玩遊戲可以用勝利失敗來簡單的評價但是畫色圖可不行 05/23 16:30

→ patvessel: 因為沒有人訓練過AI什麼是色不色的標準更不要說人類的 05/23 16:37

→ patvessel: 看法其實也不統一真的讓AI無腦去迴圈最後大概只會跑 05/23 16:38

→ patvessel: 出整個畫面都是各種乳頭的照片之類的詭異玩意 05/23 16:38

推 Chricey: 剛開始吃UC2，期待 05/23 16:38

→ patvessel: 不是說這個研究沒意義只是他們把最困難的部分 05/23 16:43

→ patvessel: "獎勵函數和目標的設定" 外包給了遊戲這種最簡易的環境 05/23 16:43

推 nicetw20xx: 結果ai生成評估方法逼你貼標客製xD 05/23 19:08

推 Supasizeit: 怎麼跟Hermes講的 87%像 05/23 19:16

推 Kroner: 關節痛按摩有效嗎？ 05/23 19:16