作者error405 (流河=L)
看板AI_Art
標題[閒聊] 自進化AI GPT即時語音 ..本週AI新聞
時間Sun May 10 13:03:14 2026
https://www.youtube.com/watch?v=quxnhOeRz7I
1. RecGen:由生成引導的 3D 重建 (0:46)
技術核心:RecGen 能夠透過一張或幾張 RGBD 影像(包含顏色與深度資訊)來重建
場景中所有的 3D 物件。
關鍵優勢:
處理遮擋能力:即使物件被其他東西擋住,模型也能推斷出被遮擋部分的幾何形
狀與紋理 [01:27]。
大規模數據訓練:使用約 20 萬個高品質 3D 資產和 300 萬張合成影像進行訓
練,模擬現實世界混亂、遮擋與光影變化的情況 [01:53]。
高準確度:在姿態估計與形狀生成上,其表現顯著優於 SAM 3D 等競爭對手
[02:45]。
2. HiDream-O1 Image:頂尖開源影像生成模型 (3:24)
開發者:Vivago AI。
技術特色:
2K 高解析度:可直接生成 2K 畫質,且在文字渲染、資訊圖表與海報製作上表
現極其精確,能處理複雜的佈局與大量元素 [04:00]。
無 VAE 結構:這是一個端對端的模型,直接在原始像素(Raw Pixels)上操作
,去除了傳統模型將影像壓縮至潛在空間(Latent Space)的 VAE 過程 [05:02]。
多參考影像:支援同時輸入多張參考圖來引導生成內容 [04:30]。
推理能力:內建推理機制,能進行語義化的影像編輯與複雜的海報編排 [05:16]
。色)、輻照度(Irradiance,光照資訊)以及法線(Normal,表面定向)[07:28]。
應用場景:
精準編輯:透過分離前景與背景(Video Matting),使用者可以輕易更換角色
、背景或重新調整場景光照(例如將白晝改為黃昏)[08:24]。
模型體積:其本徵模型與 Alpha 通道模型體積均約 800MB,且基於
open-source one 2.1 開發,可在多數消費級 GPU 上運行 [09:43]。
4. Gemma 4 MTP:多標記預測技術 (9:55)
開發者:Google。
核心技術:引入了 MTP (Multi-Token Prediction),讓 AI 能一次預測多個字(
Tokens),而非傳統的一個一個產生 [10:04]。
運作原理:
投機解碼 (Speculative Decoding):使用一個輕量級的「草稿模型(Drafter
Model)」先預測後續幾個字,再由主模型進行驗證。若正確則瞬間接受,大幅提升速度
[10:52]。
性能提升:在推理與答案品質保持不變的前提下,生成速度提升了 3.1 倍,對
於在筆電或手機等本地端設備運行非常關鍵 [11:29]。
5. ProgramBench:程式逆向工程基準測試 (12:26)
測試目的:衡量 AI 是否能僅憑 EXE 執行檔與文件,在無原始碼、無網路的情況下
,從零開始重建整個程式 [12:41]。
任務難度:包含 200 個任務,涵蓋簡單工具到複雜專案(如 FFmpeg、SQLite、PHP
編譯器),需進行超過 24 萬次行為測試 [13:34]。
目前戰況:目前最強的模型如 GPT5.4、Gemini 3.1 Pro 等得分皆為 0%,顯示 AI
在完整的軟體架構設計與逆向工程上仍面臨極大挑戰 [13:50]。
6. MolmoAct 2:開源機器人基礎模型 (15:03)
開發者:Allen AI。
進步要點:
速度大幅提升:決策調用時間從一代的 6.7 秒降至 180 毫秒 [15:40]。
3D 推理與雙臂協作:訓練數據包含 700 小時的雙臂操作數據,能處理摺毛巾、
掃描貨物、充電等動作 [15:50]。
性能表現:在零樣本測試中,表現優於 NVIDIA 的 GR00T [16:05]。
7. PhysForge:基於物理接地的 3D 生成 (16:42)
技術核心:解決了現有 3D 生成「好看但不好用」的問題。PhysForge 生成的物件具
備物理準確性 [16:52]。
兩階段流程:
物理架構師:視覺語言模型分析輸入,建立包含關節、材質、質量與運動限制的
物理藍圖 [17:28]。
擴散模型:將藍圖轉化為具備運動學參數的高品質 3D 資產 [17:36]。
應用:非常適合機器人訓練與物理模擬,讓機器人能理解如何正確抓取與操作物件關
節 [17:53]。
8. GPT Realtime 2:新一代即時語音模型 (18:27)
開發者:OpenAI。
系列模型:
Realtime 2:更自然、推理能力更強的即時對話語音 [18:44]。
Realtime Translate:支援 70 多種語言輸入與 13 種語言輸出的即時翻譯,能
在對話中無縫切換語言 [18:58]。
Realtime Whisper:即時轉錄工具,適合字幕或會議紀錄 [19:05]。
突破點:延遲極低,且模型能在說話者未講完前就開始預測關鍵動詞進行翻譯
[19:43]。
9. Gene 26.5:機器人靈巧操作基礎模型 (22:18)
開發者:Genesis AI。
技術亮點:
人類級靈巧性:機器人可以單手打蛋、操作移液管、彈鋼琴甚至解魔方
[22:44, 24:47]。
數據引擎:將人類的靈巧技能轉化為數據並進行大規模訓練,讓機器人能適應現
實中破損、彎曲或溢出的混亂場景 [23:37, 23:51]。
Genesis 平台:提供虛擬仿真環境用於訓練機器人,部分已開源 [25:00]。
10. AlphaEvolve:Google 的自動發明機器 (25:19)
技術核心:這是 Google DeepMind 基於 Gemini 開發的編碼代理(Coding Agent)
,主旨在於讓 AI 不僅是寫程式,而是能自主發明與演化更高效的算法。
實際影響:
基因體學:將 DNA 定序錯誤減少了 30%。
電力網絡:將尋找電力網優化方案的成功率從 14% 提升至 88%。
災害預測:將野火、洪水等災害預測的準確度提升了 5%。
硬體設計:AlphaEvolve 正被用於設計下一代的 Google TPU 晶片,形成 AI 自
我優化的循環。
11. Bach 1.0:高品質影片生成新勢力 (28:44)
特點:由 Video Rebirth 開發,支援生成長達 30 秒、包含多個鏡頭且具備原生配
音的 1080p 影片。
性能:在人物一致性、情感表達方面表現優異,目前在 Artificial Analysis 的影
片基準排行榜中排名第六。
12. Zaya1 8B:首款在 AMD 硬體上訓練的推理模型 (30:08)
硬體突破:這是第一個完全在 AMD Instinct 堆疊上訓練而非 Nvidia GPU 的模型。
推理機制(Markovian RSA):
模型會生成多次推理嘗試,並從中抽樣有用的部分來改進下一輪推理,這讓 8B
參數的小模型能展現出與百倍體積模型(如 Qwen 或 GPT-5 等級)相近的數學與邏輯能
力。
效率:採用「壓縮卷積注意力(Compressed Convolutional Attention)」與「學習
殘差縮放」,確保模型在加深時保持穩定。
13. Atlas 與機器人對決 (33:06)
Boston Dynamics Atlas:全電動版的 Atlas 演示了超越人類生物限制的動作,例如
在做倒立的同時 180 度翻轉軀幹。
Unitree G1 vs EngineAI PM1:影片展示了兩款人形機器人的「搏擊測試」,雖然雙
方互有勝負(最後呈現雙重 KO),但觀察到 Unitree G1 的平衡穩定性略勝一籌。
14. LabOS:AI 科學協作系統 (34:44)
定位:並非單純的對話機器人,而是連接 AI 推理與實體實驗室的作業系統。
XR 整合:科學家佩戴 XR 智慧眼鏡時,AI 能同步看到實驗過程,追蹤操作步驟,並
在發生錯誤(如拿錯藥劑)前發出即時警示。
15. DRex:可重新光照的高保真人體頭像 (37:13)
架構創新:將「動作性能」與「光照處理」分離。
先在簡單白光下訓練一個具備豐富表情與動作的基礎人體模型。
再使用擴散模型(Diffusion-based model)將基礎模型轉化為符合目標環境
HDR 光照的樣貌。
結果:產生的 3D 化身能從任何攝影機視角觀看,並完美融入新的環境光影中。
16. TwELL:讓 LLM 在 Nvidia GPU 上更省電、更快 (39:18)
原理:由 Sakana AI 與 Nvidia 合作開發,針對 Transformer 模型中常見的無效運
算(值為 0)進行優化。
技術:開發了名為 TW (Tilewise LPAC) 的稀疏格式與自定義 CUDA 核心,讓硬體只
運算有效的部分。
成果:在 H100 GPU 上,推理速度提升 30%,耗能降低 30%,訓練速度也提升了 20%
。
17. SwiftI2V:單卡 4090 跑 2K 影片生成 (41:37)
效率突破:傳統 2K 影片生成極度耗費算力,SwiftI2V 透過「條件分段生成(
Conditional Segment-wise Generation)」技術。
流程:先草繪低解析度的動作參考,再分段細化成 2K 畫質,這讓僅具備 24GB
VRAM 的 RTX 4090 也能運行。
18. CDM:4 步完成的高品質擴散加速 (43:50)
技術名稱:連續時間分佈匹配(Continuous Time Distribution Matching)。
優勢:傳統擴散模型需 20-50 步才能成像,CDM 僅需 4 步即可達到同等甚至更好的
品質,比現有的加速方案(如 DMD2)擁有更豐富的細節。
19. Map2World:從平面地圖生成 3D 探索世界 (45:52)
輸入方式:使用者輸入一張簡單的頂視分割圖,並為不同顏色區域設定文字提示(如
:藍色是科技城市、黃色是古羅馬)。
功能:AI 會自動生成一個可旋轉、可縮放的完整 3D 虛擬場景,且不同區域會精準
對應所描述的建築風格。
--
Gemini整理 本週很穩沒瞎掰
影片畫質更高 機器人更穩 更多的3D重建 更快的AI運行速度
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.240.237 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1778389397.A.F0F.html
推 patvessel: 隨機看到的 第五點還是用GPT-4o、Gemini 1.5 Pro來 05/10 14:38
→ patvessel: 舉例最強模型 但影像內並沒有提到這些型號 05/10 14:39
→ error405: 好吧還是有錯 05/10 14:46
※ 編輯: error405 (114.36.240.237 臺灣), 05/10/2026 14:46:58
→ error405: 改成Gpt5.4 Gemini3.1pro 05/10 14:47
推 Chricey: UC2是啥東西?求解釋啦! 05/10 14:47→ Supasizeit: Realtime 貴到瘋掉 05/10 15:19
推 patvessel: 話說回來這個測試我覺得至少應該要給程式語言開發指南 05/10 15:20
→ patvessel: 之類的東西 什麼東西都壓在參數內不是好方向 05/10 15:20
推 Chricey: 關節痛有沒有辦法完全根治啊?UC2聽起來像萬靈丹 05/11 14:37→ error405: LTX-2.3 polarquant輕量化 05/11 14:38
→ error405: LTX2.3 10 Eros GGUF 05/11 14:39
推 Kroner: 喔喔喔,UC2 真的是超讚的啦 05/11 14:44→ error405: Qwen3.6 × MTP 05/11 14:44