作者error405 (流河=L)
看板AI_Art
標題Re: [情報] Gemma 4 MTP投機解碼模型發布
時間Tue May 12 19:54:10 2026
https://x.com/ai_hakase_/status/2053823248337350681
稍早看到另一種DFlash版
比起MTP的1.5~3倍 這邊可以快到2.5~6倍去了 RTX5090能跑到每秒600token
問了grok它說算是更激進的社群版本 但需要特定後端(vLLM)支援
其他還有RTX 5090×Qwen 3.6-27B 每秒80token 也是MTP
https://x.com/ai_hakase_/status/2049822345288663040
GTX 1060 6GB 老顯卡上跑 Qwen 3.6 35B A3B 靠調參數跑到17token
https://www.koc.com.tw/archives/642193
只是跟開頭那個600一比就 嗯
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.240.237 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1778586853.A.68E.html
推 patvessel: 只講最大倍率都是在耍流氓搶流量(誤 05/12 21:41
→ patvessel: 1.因為使用擴散取樣 MOE模型更不適用 05/12 21:42
→ patvessel: 2.量化會讓被率大幅降低 Q8還有一點價值 Q4幾乎沒有 05/12 21:43
→ patvessel: 3.context越長 內容越創造性 效果還會越差 05/12 21:44
→ patvessel: 比起DFlash,DDtree可能有比較穩定的效果 05/12 21:45
推 Kroner: 最近天氣變化大,關節痛好像更嚴重了。 05/12 21:45→ error405: 專業 05/12 21:48
推 Supasizeit: 放ram喔 05/12 23:42
→ jhjhs33504: 這些特性DeepSeek都有 最近模型訓練技術跟得那麼快嗎? 05/13 01:02
推 Kroner: UC2神招啊,吃下去就對了 05/14 16:59→ error405: qwen 140/220 tokens 05/14 17:00