Re: [情報] Gemma 4 MTP投機解碼模型發布

作者error405 (流河=L)

看板AI_Art

標題Re: [情報] Gemma 4 MTP投機解碼模型發布

時間Tue May 12 19:54:10 2026

https://x.com/ai_hakase_/status/2053823248337350681 稍早看到另一種DFlash版比起MTP的1.5~3倍這邊可以快到2.5~6倍去了 RTX5090能跑到每秒600token 問了grok它說算是更激進的社群版本但需要特定後端(vLLM)支援其他還有RTX 5090×Qwen 3.6-27B 每秒80token 也是MTP https://x.com/ai_hakase_/status/2049822345288663040 GTX 1060 6GB 老顯卡上跑 Qwen 3.6 35B A3B 靠調參數跑到17token https://www.koc.com.tw/archives/642193 只是跟開頭那個600一比就嗯 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.240.237 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1778586853.A.68E.html

推 patvessel: 只講最大倍率都是在耍流氓搶流量(誤 05/12 21:41

→ patvessel: 1.因為使用擴散取樣 MOE模型更不適用 05/12 21:42

→ patvessel: 2.量化會讓被率大幅降低 Q8還有一點價值 Q4幾乎沒有 05/12 21:43

→ patvessel: 3.context越長內容越創造性效果還會越差 05/12 21:44

→ patvessel: 比起DFlash,DDtree可能有比較穩定的效果 05/12 21:45

推 Kroner: 最近天氣變化大，關節痛好像更嚴重了。 05/12 21:45

→ error405: 專業 05/12 21:48

推 Supasizeit: 放ram喔 05/12 23:42

→ jhjhs33504: 這些特性DeepSeek都有最近模型訓練技術跟得那麼快嗎? 05/13 01:02

推 Kroner: UC2神招啊，吃下去就對了 05/14 16:59

→ error405: qwen 140/220 tokens 05/14 17:00