[情報] llama.cpp 已合併投機解碼的PR

作者patvessel (我覺得推文用句號的都AI)

看板AI_Art

標題[情報] llama.cpp 已合併投機解碼的PR

時間Sun May 17 05:00:09 2026

連結 https://github.com/ggml-org/llama.cpp/pull/22673 已經合併直接pull編譯即可參數範例摘要啟動草案MTP預測與平行量設定(2) llama-server -hf [model-with-mtp] --spec-type draft-mtp --spec-draft-n-max 2 同時啟用MTP與ngram(適用於非CUDA環境) llama-server -hf [model-with-mtp] \ --spec-type draft-mtp --spec-draft-n-max 3 \ --spec-type ngram-mod --spec-ngram-mod-n-match 24 \ --spec-ngram-mod-n-min 48 --spec-ngram-mod-n-max 64 上面比較短的寫法 llama-server -hf [model-with-mtp] --spec-default \ --spec-type draft-mtp --spec-draft-n-max 3 我在qwen3.6-27B-mtp q4km 在 --spec-draft-n-max 3時使用現有工作流中的三種典型負載 context/output 長長長短短長三種組合測試後得出下列結論 prefill速度大約下降40%~50% decode速度上升約 6%~30% #要視生成類型而定落差很大說實話考慮到額外記憶體的開銷這不是非常讓人滿意的數字這可能與我採用的量化和任務類型有關在reddit的說法是Q8以上和任務類型為程式語言這類高格式性的任務帶來的收益會更顯著 Q4km以下的分析任務和創意寫作任務可能會接近零收益甚至負收益 https://www.reddit.com/r/LocalLLaMA/comments/1t9gcar/mtp_benchmark_results_the _nature_of_the/ 我大量使用長context推論因此目前對我來說整體是負面收益的期待後續的最佳化但目前是否划算依然取決於每個人自己的任務類型是否適合這種推理方式 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.229.28.82 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1778965214.A.D92.html

推 error405: 原來還能反效果 05/17 07:35

就像所有的壓縮法都不保證可以越壓越小總是會有一些極端狀況...

推 YCL13: 測了幾小時，覺得不太穩，會有一些之前沒遇過的問題 05/17 08:02

推 avans: 推測試心得 05/17 09:31

推 qiaffvvf: prefill速度下降... 05/17 10:12

速度會下降是原本就能預想的因為要維護兩份kvcache 但是幾乎直接腰斬就是代表幾乎沒有可以重用的部分這可能是因為qwen並非原生的投機解碼模型而是用小模型來當大模型的草稿缺乏架構上的統一和最佳化之後可能會有效率更高的模型和更好的最佳化實作所以現在合併這個PR可能只把支援性框架做出來而不是馬上就能適合所有人 ※ 編輯: patvessel (125.229.28.82 臺灣), 05/17/2026 12:08:04

推 proton63: 推 05/17 12:54

推 Kroner: 關節痛按摩有效嗎？ 05/17 12:54

推 pxhome: 超長上下文污染很嚴重，4K還好，8K真的就弊大於利，後面越 05/19 18:41

→ pxhome: 滾越大，生成越來越制式，很難在語法上找到新巧思 05/19 18:41

推 Supasizeit: 8K算長喔？ 05/20 00:35

→ patvessel: 8K連可能連RAG內容都放不下.. 05/20 00:44

推 Kroner: 喔喔喔，UC2 真的是超讚的啦 05/20 00:44

→ patvessel: PR#23269 已經合併修正了一些BUG 還有一些效能改善 05/20 00:44

→ patvessel: 在我的環境中prefill速度有顯著的提升約從-40%變-20% 05/20 01:31

推 Supasizeit: 我是用Vllm int4版本而且是MOE 不曉得怎麼比較 05/20 01:57

→ Supasizeit: 但已經工作很久了 CC跟他合作很愉快也暫時懶得優化 05/20 01:57

推 Kroner: 樓下關節痛都吃鞏固力 05/20 01:57

→ Supasizeit: 了 05/20 01:57

→ patvessel: 原來S大已經改用vllm了 05/20 10:14

→ patvessel: 我想會使用vllm的環境通常是為了追求高併發的總吞吐量 05/20 10:18

→ patvessel: 而如果可以維持穩定的高併發的話使用投機解碼的意義就 05/20 10:19

推 Kroner: UC2神招啊，吃下去就對了 05/20 10:19

→ patvessel: 就相對薄弱 05/20 10:19

推 Supasizeit: 我是懶因為同一套agent 要適配mac omlx跟windows 弄 05/20 12:20

→ Supasizeit: 一弄Vllm比較穩 05/20 12:20

推 Supasizeit: 而且Vllm有睡覺功能閒置可以釋放記憶體不用卸載模 05/20 12:22

推 Chricey: 剛開始吃UC2，期待 05/20 12:22

→ Supasizeit: 型 05/20 12:22

→ patvessel: 我不太懂agent接入端跟後端推理整合性的關聯 05/20 13:19

→ patvessel: 推論終端本身的記憶體需求並不大用nommap載入就好了 05/20 13:23

→ patvessel: 而且vllm的sleepmode不是這樣用的吧? 05/20 13:40

推 Chricey: 關節痛這種東西，比鬼還可怕！ 05/20 13:40

推 Supasizeit: 你說的沒錯，sleep mode推論沒用 05/20 21:31

→ Supasizeit: 作為一個Vibe仔自然沒仔細研究，但llamacpp處理http 05/20 21:33

→ Supasizeit: 遇到一些問題，轉Vllm解決而且速度居然變1.8x 05/20 21:33