看板 AI_Art
https://x.com/berryxia/status/2059286093753934069 https://www.alphaxiv.org/abs/2605.26099 論文摘要:Language Models Need Sleep(語言模型需要睡眠) 核心問題 Transformer-based 大型語言模型在處理長序列(long-horizon)任務時,注意 力機制(Attention) 的 KV Cache 會隨上下文長度線性增長,計算量則呈二次方增長, 導致效率不佳。雖然近期混合模型(Hybrid models)結合了注意力與固定大小的 fast weights(如 State-Space Models / SSM 層)來改善記憶效率,但研究發現這仍不足以 支援需要**深度推理(deep reasoning)**的任務。即使記憶容量足夠,單次前向傳遞( single-pass)難以將已 evicted(被清除)的上下文轉化為有效的內部狀態。 提出方法:「Sleep」機制 作者受生物學中「睡眠時海馬迴重播(hippocampal replay) 與記憶鞏固」啟發,設計了一種離線鞏固機制:當上下文窗口快滿時,模型進入「睡眠」 階段。 在睡眠中,模型對累積的上下文進行 N 次離線遞迴前向傳遞(recurrent passes),透 過學習到的本地規則(learned local rule) 反覆更新 SSM 區塊中的 fast weights。 睡眠結束後,清空 KV Cache,繼續正常推理(wake-time prediction),且推理延遲不 增加(額外計算全移到睡眠階段)。 訓練時端到端反向傳播,優化睡眠後的任務表現。 這讓模型能把短期記憶(上下文)轉化為長期權重記憶,且增加睡眠持續時間 N 能顯著 提升表現,尤其在需要更深層推理的案例上效果最大。 實驗結果 合成任務:如 CellularAutomata(細胞自動機)和多跳圖檢索(multi-hop graph retrieval)。普通 Transformer 和 vanilla SSM-Attention 混合模型在上下文被清除後無法有效推理,而 Sleep 模型大幅改善,且 N 越大越好。 真實任務:在 GSM-Infinite(數學推理長上下文版本)上,使用預訓練 LLM 初始化也驗 證了方法的有效性。 主要貢獻與洞見 指出單純增加記憶容量不夠,計算深度(computation for consolidation) 才是瓶頸。 證明遞迴計算不僅可用於預測,也可用於離線記憶鞏固,且無需在推理時增加延遲。 提供一種在保持低延遲推理的前提下,處理極長上下文並進行深度推理的新方向。 總結來說,這篇論文提出「語言模型需要睡眠」來整理記憶的類生物概念,透過離線遞迴 更新 fast weights,讓模型在長序列任務上實現更好的可擴展推理能力。論文發表於 2026 年 5 月,值得關注長上下文與高效推理相關的研究者參考。 -- grok整理 短期記憶睡一覺變長期記憶 師法大自然的作法 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.254.132 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1779872642.A.697.html ※ 編輯: error405 (114.36.254.132 臺灣), 05/27/2026 17:05:40
peterturtle: 不是邊跑邊做要睡一覺更新與 lora 差在哪? wwww 05/27 17:33
peterturtle: 人心終究是要回到 lora 的 XD 05/27 17:33
Supasizeit: 寫扣不好用 這是給長期工作勞累的Agent的 05/27 17:46
patvessel: SSM 狀態空間模型就像一個容量有限的水杯 05/27 22:08
patvessel: 一直加染料進去 最終添加的資訊在無法造成統計上有效 05/27 22:08
Chricey: 有人知道UC2和其他關節保健品的差異嗎? 05/27 22:08
patvessel: 的變化時 那些資訊會成為沒有的意義雜訊 05/27 22:09
patvessel: 這個機制的核心特色 其實是記憶的選擇性遺忘 05/27 22:09
patvessel: 而且這並沒有使用SSM的必然性 只要實作遺忘或記憶整理 05/27 22:09
patvessel: 傳統的KVCACHE 甚至是RAG與DB搭配 都可以負擔這個任務 05/27 22:09
Kroner: 關節痛睡覺就能治了,吃什麼UC2 05/27 22:09
patvessel: 實際上大多數的解決方案用kvcache和agent就能達成近似 05/27 22:30
patvessel: 的結果 而且還不需要改變模型的架構 05/27 22:30
patvessel: 反之要是按照原文說法搞出一個專用模型 這個模型反而會 05/27 22:43
patvessel: 會喪失泛用性 而且每次都要重訓 比起代理人實用性很低 05/27 22:44
Kroner: 關節痛睡覺就能治了,吃什麼UC2 05/27 22:44
patvessel: 與其做一個生物大腦般的模型 05/27 22:45
patvessel: 不如做一個生物大腦般的系統 05/27 22:45
patvessel: 而業界早就在做這方面的嘗試了 不太可能回頭去改模型 05/27 22:47
patvessel: 畢竟我們好不容易才把知識和推理分開以維持可解釋性 05/27 23:02
Chricey: 求推薦靠譜的復健診所,小弟關節治好再來跪謝! 05/27 23:02
patvessel: 不可能到現在又開倒車把知識加回去 05/27 23:02
tsubasawolfy: 這跟Compacting差在哪? 05/28 10:47
patvessel: 他們想把機制做到模型層面 05/28 11:13