[閒聊] 自進化AI GPT即時語音 ..本週AI新聞

作者error405 (流河=L)

看板AI_Art

標題[閒聊] 自進化AI GPT即時語音 ..本週AI新聞

時間Sun May 10 13:03:14 2026

https://www.youtube.com/watch?v=quxnhOeRz7I

1. RecGen：由生成引導的 3D 重建 (0:46) 技術核心：RecGen 能夠透過一張或幾張 RGBD 影像（包含顏色與深度資訊）來重建場景中所有的 3D 物件。關鍵優勢：處理遮擋能力：即使物件被其他東西擋住，模型也能推斷出被遮擋部分的幾何形狀與紋理 [01:27]。大規模數據訓練：使用約 20 萬個高品質 3D 資產和 300 萬張合成影像進行訓練，模擬現實世界混亂、遮擋與光影變化的情況 [01:53]。高準確度：在姿態估計與形狀生成上，其表現顯著優於 SAM 3D 等競爭對手 [02:45]。 2. HiDream-O1 Image：頂尖開源影像生成模型 (3:24) 開發者：Vivago AI。技術特色： 2K 高解析度：可直接生成 2K 畫質，且在文字渲染、資訊圖表與海報製作上表現極其精確，能處理複雜的佈局與大量元素 [04:00]。無 VAE 結構：這是一個端對端的模型，直接在原始像素（Raw Pixels）上操作，去除了傳統模型將影像壓縮至潛在空間（Latent Space）的 VAE 過程 [05:02]。多參考影像：支援同時輸入多張參考圖來引導生成內容 [04:30]。推理能力：內建推理機制，能進行語義化的影像編輯與複雜的海報編排 [05:16] 。色）、輻照度（Irradiance，光照資訊）以及法線（Normal，表面定向）[07:28]。應用場景：精準編輯：透過分離前景與背景（Video Matting），使用者可以輕易更換角色、背景或重新調整場景光照（例如將白晝改為黃昏）[08:24]。模型體積：其本徵模型與 Alpha 通道模型體積均約 800MB，且基於 open-source one 2.1 開發，可在多數消費級 GPU 上運行 [09:43]。 4. Gemma 4 MTP：多標記預測技術 (9:55) 開發者：Google。核心技術：引入了 MTP (Multi-Token Prediction)，讓 AI 能一次預測多個字（ Tokens），而非傳統的一個一個產生 [10:04]。運作原理：投機解碼 (Speculative Decoding)：使用一個輕量級的「草稿模型（Drafter Model）」先預測後續幾個字，再由主模型進行驗證。若正確則瞬間接受，大幅提升速度 [10:52]。性能提升：在推理與答案品質保持不變的前提下，生成速度提升了 3.1 倍，對於在筆電或手機等本地端設備運行非常關鍵 [11:29]。 5. ProgramBench：程式逆向工程基準測試 (12:26) 測試目的：衡量 AI 是否能僅憑 EXE 執行檔與文件，在無原始碼、無網路的情況下，從零開始重建整個程式 [12:41]。任務難度：包含 200 個任務，涵蓋簡單工具到複雜專案（如 FFmpeg、SQLite、PHP 編譯器），需進行超過 24 萬次行為測試 [13:34]。目前戰況：目前最強的模型如 GPT5.4、Gemini 3.1 Pro 等得分皆為 0%，顯示 AI 在完整的軟體架構設計與逆向工程上仍面臨極大挑戰 [13:50]。 6. MolmoAct 2：開源機器人基礎模型 (15:03) 開發者：Allen AI。進步要點：速度大幅提升：決策調用時間從一代的 6.7 秒降至 180 毫秒 [15:40]。 3D 推理與雙臂協作：訓練數據包含 700 小時的雙臂操作數據，能處理摺毛巾、掃描貨物、充電等動作 [15:50]。性能表現：在零樣本測試中，表現優於 NVIDIA 的 GR00T [16:05]。 7. PhysForge：基於物理接地的 3D 生成 (16:42) 技術核心：解決了現有 3D 生成「好看但不好用」的問題。PhysForge 生成的物件具備物理準確性 [16:52]。兩階段流程：物理架構師：視覺語言模型分析輸入，建立包含關節、材質、質量與運動限制的物理藍圖 [17:28]。擴散模型：將藍圖轉化為具備運動學參數的高品質 3D 資產 [17:36]。應用：非常適合機器人訓練與物理模擬，讓機器人能理解如何正確抓取與操作物件關節 [17:53]。 8. GPT Realtime 2：新一代即時語音模型 (18:27) 開發者：OpenAI。系列模型： Realtime 2：更自然、推理能力更強的即時對話語音 [18:44]。 Realtime Translate：支援 70 多種語言輸入與 13 種語言輸出的即時翻譯，能在對話中無縫切換語言 [18:58]。 Realtime Whisper：即時轉錄工具，適合字幕或會議紀錄 [19:05]。突破點：延遲極低，且模型能在說話者未講完前就開始預測關鍵動詞進行翻譯 [19:43]。 9. Gene 26.5：機器人靈巧操作基礎模型 (22:18) 開發者：Genesis AI。技術亮點：人類級靈巧性：機器人可以單手打蛋、操作移液管、彈鋼琴甚至解魔方 [22:44, 24:47]。數據引擎：將人類的靈巧技能轉化為數據並進行大規模訓練，讓機器人能適應現實中破損、彎曲或溢出的混亂場景 [23:37, 23:51]。 Genesis 平台：提供虛擬仿真環境用於訓練機器人，部分已開源 [25:00]。 10. AlphaEvolve：Google 的自動發明機器 (25:19) 技術核心：這是 Google DeepMind 基於 Gemini 開發的編碼代理（Coding Agent），主旨在於讓 AI 不僅是寫程式，而是能自主發明與演化更高效的算法。實際影響：基因體學：將 DNA 定序錯誤減少了 30%。電力網絡：將尋找電力網優化方案的成功率從 14% 提升至 88%。災害預測：將野火、洪水等災害預測的準確度提升了 5%。硬體設計：AlphaEvolve 正被用於設計下一代的 Google TPU 晶片，形成 AI 自我優化的循環。 11. Bach 1.0：高品質影片生成新勢力 (28:44) 特點：由 Video Rebirth 開發，支援生成長達 30 秒、包含多個鏡頭且具備原生配音的 1080p 影片。性能：在人物一致性、情感表達方面表現優異，目前在 Artificial Analysis 的影片基準排行榜中排名第六。 12. Zaya1 8B：首款在 AMD 硬體上訓練的推理模型 (30:08) 硬體突破：這是第一個完全在 AMD Instinct 堆疊上訓練而非 Nvidia GPU 的模型。推理機制（Markovian RSA）：模型會生成多次推理嘗試，並從中抽樣有用的部分來改進下一輪推理，這讓 8B 參數的小模型能展現出與百倍體積模型（如 Qwen 或 GPT-5 等級）相近的數學與邏輯能力。效率：採用「壓縮卷積注意力（Compressed Convolutional Attention）」與「學習殘差縮放」，確保模型在加深時保持穩定。 13. Atlas 與機器人對決 (33:06) Boston Dynamics Atlas：全電動版的 Atlas 演示了超越人類生物限制的動作，例如在做倒立的同時 180 度翻轉軀幹。 Unitree G1 vs EngineAI PM1：影片展示了兩款人形機器人的「搏擊測試」，雖然雙方互有勝負（最後呈現雙重 KO），但觀察到 Unitree G1 的平衡穩定性略勝一籌。 14. LabOS：AI 科學協作系統 (34:44) 定位：並非單純的對話機器人，而是連接 AI 推理與實體實驗室的作業系統。 XR 整合：科學家佩戴 XR 智慧眼鏡時，AI 能同步看到實驗過程，追蹤操作步驟，並在發生錯誤（如拿錯藥劑）前發出即時警示。 15. DRex：可重新光照的高保真人體頭像 (37:13) 架構創新：將「動作性能」與「光照處理」分離。先在簡單白光下訓練一個具備豐富表情與動作的基礎人體模型。再使用擴散模型（Diffusion-based model）將基礎模型轉化為符合目標環境 HDR 光照的樣貌。結果：產生的 3D 化身能從任何攝影機視角觀看，並完美融入新的環境光影中。 16. TwELL：讓 LLM 在 Nvidia GPU 上更省電、更快 (39:18) 原理：由 Sakana AI 與 Nvidia 合作開發，針對 Transformer 模型中常見的無效運算（值為 0）進行優化。技術：開發了名為 TW (Tilewise LPAC) 的稀疏格式與自定義 CUDA 核心，讓硬體只運算有效的部分。成果：在 H100 GPU 上，推理速度提升 30%，耗能降低 30%，訓練速度也提升了 20% 。 17. SwiftI2V：單卡 4090 跑 2K 影片生成 (41:37) 效率突破：傳統 2K 影片生成極度耗費算力，SwiftI2V 透過「條件分段生成（ Conditional Segment-wise Generation）」技術。流程：先草繪低解析度的動作參考，再分段細化成 2K 畫質，這讓僅具備 24GB VRAM 的 RTX 4090 也能運行。 18. CDM：4 步完成的高品質擴散加速 (43:50) 技術名稱：連續時間分佈匹配（Continuous Time Distribution Matching）。優勢：傳統擴散模型需 20-50 步才能成像，CDM 僅需 4 步即可達到同等甚至更好的品質，比現有的加速方案（如 DMD2）擁有更豐富的細節。 19. Map2World：從平面地圖生成 3D 探索世界 (45:52) 輸入方式：使用者輸入一張簡單的頂視分割圖，並為不同顏色區域設定文字提示（如：藍色是科技城市、黃色是古羅馬）。功能：AI 會自動生成一個可旋轉、可縮放的完整 3D 虛擬場景，且不同區域會精準對應所描述的建築風格。 -- Gemini整理本週很穩沒瞎掰影片畫質更高機器人更穩更多的3D重建更快的AI運行速度 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.240.237 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1778389397.A.F0F.html

推 patvessel: 隨機看到的第五點還是用GPT-4o、Gemini 1.5 Pro來 05/10 14:38

→ patvessel: 舉例最強模型但影像內並沒有提到這些型號 05/10 14:39

→ error405: 好吧還是有錯 05/10 14:46

※ 編輯: error405 (114.36.240.237 臺灣), 05/10/2026 14:46:58

→ error405: 改成Gpt5.4 Gemini3.1pro 05/10 14:47

→ error405: https://programbench.com/ 05/10 14:47

推 Chricey: UC2是啥東西？求解釋啦！ 05/10 14:47

→ Supasizeit: Realtime 貴到瘋掉 05/10 15:19

推 patvessel: 話說回來這個測試我覺得至少應該要給程式語言開發指南 05/10 15:20

→ patvessel: 之類的東西什麼東西都壓在參數內不是好方向 05/10 15:20

→ error405: https://x.com/ai_hakase_/status/2053327930462286235 05/11 14:37

推 Chricey: 關節痛有沒有辦法完全根治啊？UC2聽起來像萬靈丹 05/11 14:37

→ error405: LTX-2.3 polarquant輕量化 05/11 14:38

→ error405: https://x.com/SD_Tutorial/status/2053510210011255032 05/11 14:39

→ error405: LTX2.3 10 Eros GGUF 05/11 14:39

→ error405: https://x.com/ai_hakase_/status/2053416511042093168 05/11 14:44

推 Kroner: 喔喔喔，UC2 真的是超讚的啦 05/11 14:44

→ error405: Qwen3.6 × MTP 05/11 14:44