作者patvessel (我覺得推文用句號的都AI)
看板AI_Art
標題[情報] NVIDIA Star Elastic 可變參數量模型
時間Sun May 10 16:20:28 2026
情報來源:
https://www.reddit.com/r/LocalLLaMA/comments/1t8s83r/
核心概念有點類似Gemma的E2B和E4B 但是支援Zero-Shot Slicing
也就是將多個不同規模的模型用增量的方式打包進單一檢查點中 但是運作上更靈活
可以讓使用者可依需求選擇喚醒的參數量(精確地說似乎是不同層數)來使用
換句話說 這是一個基於 Nemotron Nano v3訓練的模型 但它同時也是三個模型
檔案實際上是一個30B的檢查點
但是因為Mamba-2/MoE/attention三種的混合架構
所以它的體積比傳統架構的同規模模型大一些
(大約 比gemma-4-31B大42% 比Qwen3.6-35B-A3B大 25%)
但是在呼叫時可以按照需求決定要喚醒多少參數來進行推論
有30B-A3.6B / 23B-A2.8B / 12B-A2B 三檔位可選 並且共享KVcache(實際上更複雜一點)
構造就像俄羅斯娃娃那樣一層套一層
可以在重型任務時三層全部出動 也可以在快速簡單任務時只出動核心戰鬥機
看討論似乎似乎還能做出讓12B做內部COT後才用30B寫最終輸出這種有趣的小動作
(未證實)
抱抱臉已經有mradermacher大神的量化版Gguf
https://huggingface.co/mradermacher/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B-
BF16-GGUF
就算不討論模型性能 (因為NV的模型都是技術展示向 實用性一般)
但不管對企業還是對個人來說 這似乎都是一個很有趣且實用的發展方向
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.229.28.82 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1778401232.A.524.html
推 error405: 想到某種分大小的沖水按鈕 05/10 16:25
補充一下:還有12B/9B/6B的版本
https://huggingface.co/nvidia/Nemotron-Elastic-12B
DevQuasar大神的Gguf
https://huggingface.co/DevQuasar/nvidia.Nemotron-Elastic-12B-GGUF
※ 編輯: patvessel (125.229.28.82 臺灣), 05/10/2026 16:28:49
推 smart0eddie: hmm 05/11 08:20
推 pxhome: B16 … 你知道3090一張被炒到五萬,新玩家心中有多恨嗎? 05/14 12:52
→ pxhome: NVFP4讓5060Ti 16GB飛起來, 05/14 12:52
→ pxhome: 5萬買兩張還有找,性能一樣又有全新4年保。 05/14 12:52
推 Chricey: 長時間坐著工作,關節痛越來越嚴重,該怎麼辦?推薦UC2 05/14 12:52→ patvessel: 我完全聽不懂你在說什麼 05/21 00:59