看板 AI_Art
https://x.com/ai_hakase_/status/2053823248337350681 稍早看到另一種DFlash版 比起MTP的1.5~3倍 這邊可以快到2.5~6倍去了 RTX5090能跑到每秒600token 問了grok它說算是更激進的社群版本 但需要特定後端(vLLM)支援 其他還有RTX 5090×Qwen 3.6-27B 每秒80token 也是MTP https://x.com/ai_hakase_/status/2049822345288663040 GTX 1060 6GB 老顯卡上跑 Qwen 3.6 35B A3B 靠調參數跑到17token https://www.koc.com.tw/archives/642193 只是跟開頭那個600一比就 嗯 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.240.237 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1778586853.A.68E.html
patvessel: 只講最大倍率都是在耍流氓搶流量(誤 05/12 21:41
patvessel: 1.因為使用擴散取樣 MOE模型更不適用 05/12 21:42
patvessel: 2.量化會讓被率大幅降低 Q8還有一點價值 Q4幾乎沒有 05/12 21:43
patvessel: 3.context越長 內容越創造性 效果還會越差 05/12 21:44
patvessel: 比起DFlash,DDtree可能有比較穩定的效果 05/12 21:45
Kroner: 最近天氣變化大,關節痛好像更嚴重了。 05/12 21:45
error405: 專業 05/12 21:48
Supasizeit: 放ram喔 05/12 23:42
jhjhs33504: 這些特性DeepSeek都有 最近模型訓練技術跟得那麼快嗎? 05/13 01:02
Kroner: UC2神招啊,吃下去就對了 05/14 16:59
error405: qwen 140/220 tokens 05/14 17:00