[情報] NVIDIA Star Elastic 可變參數量模型

作者patvessel (我覺得推文用句號的都AI)

看板AI_Art

標題[情報] NVIDIA Star Elastic 可變參數量模型

時間Sun May 10 16:20:28 2026

情報來源: https://www.reddit.com/r/LocalLLaMA/comments/1t8s83r/ 核心概念有點類似Gemma的E2B和E4B 但是支援Zero-Shot Slicing 也就是將多個不同規模的模型用增量的方式打包進單一檢查點中但是運作上更靈活可以讓使用者可依需求選擇喚醒的參數量(精確地說似乎是不同層數)來使用換句話說這是一個基於 Nemotron Nano v3訓練的模型但它同時也是三個模型檔案實際上是一個30B的檢查點但是因為Mamba-2/MoE/attention三種的混合架構所以它的體積比傳統架構的同規模模型大一些 (大約比gemma-4-31B大42% 比Qwen3.6-35B-A3B大 25%) 但是在呼叫時可以按照需求決定要喚醒多少參數來進行推論有30B-A3.6B / 23B-A2.8B / 12B-A2B 三檔位可選並且共享KVcache(實際上更複雜一點) 構造就像俄羅斯娃娃那樣一層套一層可以在重型任務時三層全部出動也可以在快速簡單任務時只出動核心戰鬥機看討論似乎似乎還能做出讓12B做內部COT後才用30B寫最終輸出這種有趣的小動作 (未證實) 抱抱臉已經有mradermacher大神的量化版Gguf https://huggingface.co/mradermacher/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B- BF16-GGUF 就算不討論模型性能 (因為NV的模型都是技術展示向實用性一般) 但不管對企業還是對個人來說這似乎都是一個很有趣且實用的發展方向 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.229.28.82 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1778401232.A.524.html

推 error405: 想到某種分大小的沖水按鈕 05/10 16:25

補充一下:還有12B/9B/6B的版本 https://huggingface.co/nvidia/Nemotron-Elastic-12B DevQuasar大神的Gguf https://huggingface.co/DevQuasar/nvidia.Nemotron-Elastic-12B-GGUF ※ 編輯: patvessel (125.229.28.82 臺灣), 05/10/2026 16:28:49

推 smart0eddie: hmm 05/11 08:20

推 pxhome: B16 … 你知道3090一張被炒到五萬，新玩家心中有多恨嗎？ 05/14 12:52

→ pxhome: NVFP4讓5060Ti 16GB飛起來， 05/14 12:52

→ pxhome: 5萬買兩張還有找，性能一樣又有全新4年保。 05/14 12:52

推 Chricey: 長時間坐著工作，關節痛越來越嚴重，該怎麼辦？推薦UC2 05/14 12:52

→ patvessel: 我完全聽不懂你在說什麼 05/21 00:59