看板 AI_Art
直接上連結 https://huggingface.co/google/gemma-4-31B-it-assistant https://huggingface.co/google/gemma-4-26B-A4B-it-assistant https://huggingface.co/google/gemma-4-E4B-it-assistant https://huggingface.co/google/gemma-4-E2B-it-assistant gemma 4之前就被挖出有MTP頭 但是google說為了相容與穩定性沒有啟用 也讓gemma4背著一點死權重 現在終於發布了投機解碼模型 --- 這是什麼? --- 簡單的說 這是一個投機解碼的模型 同時運用了MTP(多token平行預測技術) 在運行本體模型的同時 讓一個小模型快速提前預測結果寫成草稿 大模型就能對草稿大批平行驗證 驗證過了的部分直接放行 驗證不過的位置接手推論 所以可以在保證精度和品質的前提下增加decode速度 缺點是 要額外的記憶體來容納這個小模型的權重和KVCACHE 簡單的說: 用記憶體空間來換解碼速度 但收益因場景而異 GGUF可能還要再等等 llama.cpp的投機解碼部分之前也有些相容性的問題 不知道什麼時候可以用到 不過原生支援似乎已經在BETA測試階段 之後有可能可以直接壓成一個檔案 更省事 也能省一些記憶空間 另外根據測試報告 全系列模型都有最大1.5倍到3.1倍之間的速度提升 26BMOE 1.5倍 31B 3倍 無用閒聊: E2B也有一個78M的可愛(?)草稿模型 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.229.28.82 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1777998902.A.DD4.html ※ 編輯: patvessel (125.229.28.82 臺灣), 05/06/2026 03:49:11
YCL13: 這段期間看到不少人在搞這個,有些人還因此把較弱的GPU也裝 05/06 06:59
YCL13: 上來專跑那個小模型 05/06 06:59
error405: 某都嗨呀苦 05/06 07:21
Bustycat: 迷你模型加速的技術要看用的軟體是否支援 05/06 12:29
error405: 坐等llamacpp/koboldcpp支援 05/06 12:43
Kroner: UC2對膝蓋特別有用嗎?有人能證實嗎? 05/06 12:43
cmcer: 記憶體又不能跌價了 05/06 18:23
jhjhs33504: 那要CPU/GPU使用率越高額外壓榨出的速度提升才會越多 05/07 00:42
patvessel: 雖然結果可能算力需求也會上升 不過主要是頻寬解放 05/07 03:18
patvessel: 這是一個Decode階段使用的技術 05/07 03:18
Chricey: UC2對膝蓋特別有用嗎?有人能證實嗎? 05/07 03:18
error405: https://www.koc.com.tw/archives/641923 05/08 07:47