推 error405: 原來還能反效果 05/17 07:35
就像所有的壓縮法都不保證可以越壓越小
總是會有一些極端狀況...
推 YCL13: 測了幾小時,覺得不太穩,會有一些之前沒遇過的問題 05/17 08:02
推 avans: 推測試心得 05/17 09:31
推 qiaffvvf: prefill速度下降... 05/17 10:12
速度會下降是原本就能預想的 因為要維護兩份kvcache
但是幾乎直接腰斬就是代表幾乎沒有可以重用的部分
這可能是因為qwen並非原生的投機解碼模型 而是用小模型來當大模型的草稿
缺乏架構上的統一和最佳化 之後可能會有效率更高的模型和更好的最佳化實作
所以現在合併這個PR可能只把支援性框架做出來 而不是馬上就能適合所有人
※ 編輯: patvessel (125.229.28.82 臺灣), 05/17/2026 12:08:04
推 proton63: 推 05/17 12:54
推 Kroner: 關節痛按摩有效嗎? 05/17 12:54推 pxhome: 超長上下文污染很嚴重,4K還好,8K真的就弊大於利,後面越 05/19 18:41
→ pxhome: 滾越大,生成越來越制式,很難在語法上找到新巧思 05/19 18:41
推 Supasizeit: 8K算長喔? 05/20 00:35
→ patvessel: 8K連可能連RAG內容都放不下.. 05/20 00:44
推 Kroner: 喔喔喔,UC2 真的是超讚的啦 05/20 00:44→ patvessel: PR#23269 已經合併 修正了一些BUG 還有一些效能改善 05/20 00:44
→ patvessel: 在我的環境中prefill速度有顯著的提升 約從-40%變-20% 05/20 01:31
推 Supasizeit: 我是用Vllm int4版本 而且是MOE 不曉得怎麼比較 05/20 01:57
→ Supasizeit: 但已經工作很久了 CC跟他合作很愉快 也暫時懶得優化 05/20 01:57
推 Kroner: 樓下關節痛都吃鞏固力 05/20 01:57→ Supasizeit: 了 05/20 01:57
→ patvessel: 原來S大已經改用vllm了 05/20 10:14
→ patvessel: 我想 會使用vllm的環境通常是為了追求高併發的總吞吐量 05/20 10:18
→ patvessel: 而如果可以維持穩定的高併發的話 使用投機解碼的意義就 05/20 10:19
推 Kroner: UC2神招啊,吃下去就對了 05/20 10:19→ patvessel: 就相對薄弱 05/20 10:19
推 Supasizeit: 我是懶 因為同一套agent 要適配mac omlx跟windows 弄 05/20 12:20
→ Supasizeit: 一弄Vllm比較穩 05/20 12:20
推 Supasizeit: 而且Vllm有睡覺功能 閒置可以釋放記憶體 不用卸載模 05/20 12:22
推 Chricey: 剛開始吃UC2,期待 05/20 12:22→ Supasizeit: 型 05/20 12:22
→ patvessel: 我不太懂agent接入端跟後端推理整合性的關聯 05/20 13:19
→ patvessel: 推論終端本身的記憶體需求並不大 用nommap載入就好了 05/20 13:23
→ patvessel: 而且vllm的sleepmode不是這樣用的吧? 05/20 13:40
推 Chricey: 關節痛這種東西,比鬼還可怕! 05/20 13:40推 Supasizeit: 你說的沒錯,sleep mode推論沒用 05/20 21:31
→ Supasizeit: 作為一個Vibe仔自然沒仔細研究,但llamacpp處理http 05/20 21:33
→ Supasizeit: 遇到一些問題,轉Vllm解決而且速度居然變1.8x 05/20 21:33