[情報] Gemma 4 MTP投機解碼模型發布

作者patvessel (我覺得推文用句號的都AI)

看板AI_Art

標題[情報] Gemma 4 MTP投機解碼模型發布

時間Wed May 6 00:34:58 2026

直接上連結 https://huggingface.co/google/gemma-4-31B-it-assistant https://huggingface.co/google/gemma-4-26B-A4B-it-assistant https://huggingface.co/google/gemma-4-E4B-it-assistant https://huggingface.co/google/gemma-4-E2B-it-assistant gemma 4之前就被挖出有MTP頭但是google說為了相容與穩定性沒有啟用也讓gemma4背著一點死權重現在終於發布了投機解碼模型 --- 這是什麼？ --- 簡單的說這是一個投機解碼的模型同時運用了MTP(多token平行預測技術) 在運行本體模型的同時讓一個小模型快速提前預測結果寫成草稿大模型就能對草稿大批平行驗證驗證過了的部分直接放行驗證不過的位置接手推論所以可以在保證精度和品質的前提下增加decode速度缺點是要額外的記憶體來容納這個小模型的權重和KVCACHE 簡單的說: 用記憶體空間來換解碼速度但收益因場景而異 GGUF可能還要再等等 llama.cpp的投機解碼部分之前也有些相容性的問題不知道什麼時候可以用到不過原生支援似乎已經在BETA測試階段之後有可能可以直接壓成一個檔案更省事也能省一些記憶空間另外根據測試報告全系列模型都有最大1.5倍到3.1倍之間的速度提升 26BMOE 1.5倍 31B 3倍無用閒聊: E2B也有一個78M的可愛(?)草稿模型 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.229.28.82 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1777998902.A.DD4.html ※ 編輯: patvessel (125.229.28.82 臺灣), 05/06/2026 03:49:11

推 YCL13: 這段期間看到不少人在搞這個，有些人還因此把較弱的GPU也裝 05/06 06:59

→ YCL13: 上來專跑那個小模型 05/06 06:59

推 error405: 某都嗨呀苦 05/06 07:21

推 Bustycat: 迷你模型加速的技術要看用的軟體是否支援 05/06 12:29

推 error405: 坐等llamacpp/koboldcpp支援 05/06 12:43

推 Kroner: UC2對膝蓋特別有用嗎？有人能證實嗎？ 05/06 12:43

推 cmcer: 記憶體又不能跌價了 05/06 18:23

推 jhjhs33504: 那要CPU/GPU使用率越高額外壓榨出的速度提升才會越多 05/07 00:42

→ patvessel: 雖然結果可能算力需求也會上升不過主要是頻寬解放 05/07 03:18

→ patvessel: 這是一個Decode階段使用的技術 05/07 03:18

推 Chricey: UC2對膝蓋特別有用嗎？有人能證實嗎？ 05/07 03:18

推 error405: https://www.koc.com.tw/archives/641923 05/08 07:47