看板 AI_Art
https://www.youtube.com/watch?v=quxnhOeRz7I
1. RecGen:由生成引導的 3D 重建 (0:46) 技術核心:RecGen 能夠透過一張或幾張 RGBD 影像(包含顏色與深度資訊)來重建 場景中所有的 3D 物件。 關鍵優勢: 處理遮擋能力:即使物件被其他東西擋住,模型也能推斷出被遮擋部分的幾何形 狀與紋理 [01:27]。 大規模數據訓練:使用約 20 萬個高品質 3D 資產和 300 萬張合成影像進行訓 練,模擬現實世界混亂、遮擋與光影變化的情況 [01:53]。 高準確度:在姿態估計與形狀生成上,其表現顯著優於 SAM 3D 等競爭對手 [02:45]。 2. HiDream-O1 Image:頂尖開源影像生成模型 (3:24) 開發者:Vivago AI。 技術特色: 2K 高解析度:可直接生成 2K 畫質,且在文字渲染、資訊圖表與海報製作上表 現極其精確,能處理複雜的佈局與大量元素 [04:00]。 無 VAE 結構:這是一個端對端的模型,直接在原始像素(Raw Pixels)上操作 ,去除了傳統模型將影像壓縮至潛在空間(Latent Space)的 VAE 過程 [05:02]。 多參考影像:支援同時輸入多張參考圖來引導生成內容 [04:30]。 推理能力:內建推理機制,能進行語義化的影像編輯與複雜的海報編排 [05:16] 。色)、輻照度(Irradiance,光照資訊)以及法線(Normal,表面定向)[07:28]。 應用場景: 精準編輯:透過分離前景與背景(Video Matting),使用者可以輕易更換角色 、背景或重新調整場景光照(例如將白晝改為黃昏)[08:24]。 模型體積:其本徵模型與 Alpha 通道模型體積均約 800MB,且基於 open-source one 2.1 開發,可在多數消費級 GPU 上運行 [09:43]。 4. Gemma 4 MTP:多標記預測技術 (9:55) 開發者:Google。 核心技術:引入了 MTP (Multi-Token Prediction),讓 AI 能一次預測多個字( Tokens),而非傳統的一個一個產生 [10:04]。 運作原理: 投機解碼 (Speculative Decoding):使用一個輕量級的「草稿模型(Drafter Model)」先預測後續幾個字,再由主模型進行驗證。若正確則瞬間接受,大幅提升速度 [10:52]。 性能提升:在推理與答案品質保持不變的前提下,生成速度提升了 3.1 倍,對 於在筆電或手機等本地端設備運行非常關鍵 [11:29]。 5. ProgramBench:程式逆向工程基準測試 (12:26) 測試目的:衡量 AI 是否能僅憑 EXE 執行檔與文件,在無原始碼、無網路的情況下 ,從零開始重建整個程式 [12:41]。 任務難度:包含 200 個任務,涵蓋簡單工具到複雜專案(如 FFmpeg、SQLite、PHP 編譯器),需進行超過 24 萬次行為測試 [13:34]。 目前戰況:目前最強的模型如 GPT5.4、Gemini 3.1 Pro 等得分皆為 0%,顯示 AI 在完整的軟體架構設計與逆向工程上仍面臨極大挑戰 [13:50]。 6. MolmoAct 2:開源機器人基礎模型 (15:03) 開發者:Allen AI。 進步要點: 速度大幅提升:決策調用時間從一代的 6.7 秒降至 180 毫秒 [15:40]。 3D 推理與雙臂協作:訓練數據包含 700 小時的雙臂操作數據,能處理摺毛巾、 掃描貨物、充電等動作 [15:50]。 性能表現:在零樣本測試中,表現優於 NVIDIA 的 GR00T [16:05]。 7. PhysForge:基於物理接地的 3D 生成 (16:42) 技術核心:解決了現有 3D 生成「好看但不好用」的問題。PhysForge 生成的物件具 備物理準確性 [16:52]。 兩階段流程: 物理架構師:視覺語言模型分析輸入,建立包含關節、材質、質量與運動限制的 物理藍圖 [17:28]。 擴散模型:將藍圖轉化為具備運動學參數的高品質 3D 資產 [17:36]。 應用:非常適合機器人訓練與物理模擬,讓機器人能理解如何正確抓取與操作物件關 節 [17:53]。 8. GPT Realtime 2:新一代即時語音模型 (18:27) 開發者:OpenAI。 系列模型: Realtime 2:更自然、推理能力更強的即時對話語音 [18:44]。 Realtime Translate:支援 70 多種語言輸入與 13 種語言輸出的即時翻譯,能 在對話中無縫切換語言 [18:58]。 Realtime Whisper:即時轉錄工具,適合字幕或會議紀錄 [19:05]。 突破點:延遲極低,且模型能在說話者未講完前就開始預測關鍵動詞進行翻譯 [19:43]。 9. Gene 26.5:機器人靈巧操作基礎模型 (22:18) 開發者:Genesis AI。 技術亮點: 人類級靈巧性:機器人可以單手打蛋、操作移液管、彈鋼琴甚至解魔方 [22:44, 24:47]。 數據引擎:將人類的靈巧技能轉化為數據並進行大規模訓練,讓機器人能適應現 實中破損、彎曲或溢出的混亂場景 [23:37, 23:51]。 Genesis 平台:提供虛擬仿真環境用於訓練機器人,部分已開源 [25:00]。 10. AlphaEvolve:Google 的自動發明機器 (25:19) 技術核心:這是 Google DeepMind 基於 Gemini 開發的編碼代理(Coding Agent) ,主旨在於讓 AI 不僅是寫程式,而是能自主發明與演化更高效的算法。 實際影響: 基因體學:將 DNA 定序錯誤減少了 30%。 電力網絡:將尋找電力網優化方案的成功率從 14% 提升至 88%。 災害預測:將野火、洪水等災害預測的準確度提升了 5%。 硬體設計:AlphaEvolve 正被用於設計下一代的 Google TPU 晶片,形成 AI 自 我優化的循環。 11. Bach 1.0:高品質影片生成新勢力 (28:44) 特點:由 Video Rebirth 開發,支援生成長達 30 秒、包含多個鏡頭且具備原生配 音的 1080p 影片。 性能:在人物一致性、情感表達方面表現優異,目前在 Artificial Analysis 的影 片基準排行榜中排名第六。 12. Zaya1 8B:首款在 AMD 硬體上訓練的推理模型 (30:08) 硬體突破:這是第一個完全在 AMD Instinct 堆疊上訓練而非 Nvidia GPU 的模型。 推理機制(Markovian RSA): 模型會生成多次推理嘗試,並從中抽樣有用的部分來改進下一輪推理,這讓 8B 參數的小模型能展現出與百倍體積模型(如 Qwen 或 GPT-5 等級)相近的數學與邏輯能 力。 效率:採用「壓縮卷積注意力(Compressed Convolutional Attention)」與「學習 殘差縮放」,確保模型在加深時保持穩定。 13. Atlas 與機器人對決 (33:06) Boston Dynamics Atlas:全電動版的 Atlas 演示了超越人類生物限制的動作,例如 在做倒立的同時 180 度翻轉軀幹。 Unitree G1 vs EngineAI PM1:影片展示了兩款人形機器人的「搏擊測試」,雖然雙 方互有勝負(最後呈現雙重 KO),但觀察到 Unitree G1 的平衡穩定性略勝一籌。 14. LabOS:AI 科學協作系統 (34:44) 定位:並非單純的對話機器人,而是連接 AI 推理與實體實驗室的作業系統。 XR 整合:科學家佩戴 XR 智慧眼鏡時,AI 能同步看到實驗過程,追蹤操作步驟,並 在發生錯誤(如拿錯藥劑)前發出即時警示。 15. DRex:可重新光照的高保真人體頭像 (37:13) 架構創新:將「動作性能」與「光照處理」分離。 先在簡單白光下訓練一個具備豐富表情與動作的基礎人體模型。 再使用擴散模型(Diffusion-based model)將基礎模型轉化為符合目標環境 HDR 光照的樣貌。 結果:產生的 3D 化身能從任何攝影機視角觀看,並完美融入新的環境光影中。 16. TwELL:讓 LLM 在 Nvidia GPU 上更省電、更快 (39:18) 原理:由 Sakana AI 與 Nvidia 合作開發,針對 Transformer 模型中常見的無效運 算(值為 0)進行優化。 技術:開發了名為 TW (Tilewise LPAC) 的稀疏格式與自定義 CUDA 核心,讓硬體只 運算有效的部分。 成果:在 H100 GPU 上,推理速度提升 30%,耗能降低 30%,訓練速度也提升了 20% 。 17. SwiftI2V:單卡 4090 跑 2K 影片生成 (41:37) 效率突破:傳統 2K 影片生成極度耗費算力,SwiftI2V 透過「條件分段生成( Conditional Segment-wise Generation)」技術。 流程:先草繪低解析度的動作參考,再分段細化成 2K 畫質,這讓僅具備 24GB VRAM 的 RTX 4090 也能運行。 18. CDM:4 步完成的高品質擴散加速 (43:50) 技術名稱:連續時間分佈匹配(Continuous Time Distribution Matching)。 優勢:傳統擴散模型需 20-50 步才能成像,CDM 僅需 4 步即可達到同等甚至更好的 品質,比現有的加速方案(如 DMD2)擁有更豐富的細節。 19. Map2World:從平面地圖生成 3D 探索世界 (45:52) 輸入方式:使用者輸入一張簡單的頂視分割圖,並為不同顏色區域設定文字提示(如 :藍色是科技城市、黃色是古羅馬)。 功能:AI 會自動生成一個可旋轉、可縮放的完整 3D 虛擬場景,且不同區域會精準 對應所描述的建築風格。 -- Gemini整理 本週很穩沒瞎掰 影片畫質更高 機器人更穩 更多的3D重建 更快的AI運行速度 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.240.237 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1778389397.A.F0F.html
patvessel: 隨機看到的 第五點還是用GPT-4o、Gemini 1.5 Pro來 05/10 14:38
patvessel: 舉例最強模型 但影像內並沒有提到這些型號 05/10 14:39
error405: 好吧還是有錯 05/10 14:46
※ 編輯: error405 (114.36.240.237 臺灣), 05/10/2026 14:46:58
error405: 改成Gpt5.4 Gemini3.1pro 05/10 14:47
error405: https://programbench.com/ 05/10 14:47
Chricey: UC2是啥東西?求解釋啦! 05/10 14:47
Supasizeit: Realtime 貴到瘋掉 05/10 15:19
patvessel: 話說回來這個測試我覺得至少應該要給程式語言開發指南 05/10 15:20
patvessel: 之類的東西 什麼東西都壓在參數內不是好方向 05/10 15:20
Chricey: 關節痛有沒有辦法完全根治啊?UC2聽起來像萬靈丹 05/11 14:37
error405: LTX-2.3 polarquant輕量化 05/11 14:38
error405: LTX2.3 10 Eros GGUF 05/11 14:39
Kroner: 喔喔喔,UC2 真的是超讚的啦 05/11 14:44
error405: Qwen3.6 × MTP 05/11 14:44