看板 AI_Art
情報來源: https://www.reddit.com/r/LocalLLaMA/comments/1t8s83r/ 核心概念有點類似Gemma的E2B和E4B 但是支援Zero-Shot Slicing 也就是將多個不同規模的模型用增量的方式打包進單一檢查點中 但是運作上更靈活 可以讓使用者可依需求選擇喚醒的參數量(精確地說似乎是不同層數)來使用 換句話說 這是一個基於 Nemotron Nano v3訓練的模型 但它同時也是三個模型 檔案實際上是一個30B的檢查點 但是因為Mamba-2/MoE/attention三種的混合架構 所以它的體積比傳統架構的同規模模型大一些 (大約 比gemma-4-31B大42% 比Qwen3.6-35B-A3B大 25%) 但是在呼叫時可以按照需求決定要喚醒多少參數來進行推論 有30B-A3.6B / 23B-A2.8B / 12B-A2B 三檔位可選 並且共享KVcache(實際上更複雜一點) 構造就像俄羅斯娃娃那樣一層套一層 可以在重型任務時三層全部出動 也可以在快速簡單任務時只出動核心戰鬥機 看討論似乎似乎還能做出讓12B做內部COT後才用30B寫最終輸出這種有趣的小動作 (未證實) 抱抱臉已經有mradermacher大神的量化版Gguf https://huggingface.co/mradermacher/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B- BF16-GGUF 就算不討論模型性能 (因為NV的模型都是技術展示向 實用性一般) 但不管對企業還是對個人來說 這似乎都是一個很有趣且實用的發展方向 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.229.28.82 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1778401232.A.524.html
error405: 想到某種分大小的沖水按鈕 05/10 16:25
補充一下:還有12B/9B/6B的版本 https://huggingface.co/nvidia/Nemotron-Elastic-12B DevQuasar大神的Gguf https://huggingface.co/DevQuasar/nvidia.Nemotron-Elastic-12B-GGUF ※ 編輯: patvessel (125.229.28.82 臺灣), 05/10/2026 16:28:49
smart0eddie: hmm 05/11 08:20
pxhome: B16 … 你知道3090一張被炒到五萬,新玩家心中有多恨嗎? 05/14 12:52
pxhome: NVFP4讓5060Ti 16GB飛起來, 05/14 12:52
pxhome: 5萬買兩張還有找,性能一樣又有全新4年保。 05/14 12:52
Chricey: 長時間坐著工作,關節痛越來越嚴重,該怎麼辦?推薦UC2 05/14 12:52
patvessel: 我完全聽不懂你在說什麼 05/21 00:59