[閒聊] 現實鋼彈 開源世界模型..本週AI新聞

作者error405 (流河=L)

看板AI_Art

標題[閒聊] 現實鋼彈開源世界模型..本週AI新聞

時間Sun May 17 13:50:28 2026

https://www.youtube.com/watch?v=NnsQj2nDkKA

1. Just Dub It 技術簡介：這是一款非常實用的影片配音與對嘴 AI 工具。它能將現有的影片音訊翻譯並配音成另一種語言，同時自動調整講者的嘴型與面部動作，使其與新語言完美對齊，並能完整保留原作者的音色與情感。技術背景：該工具基於目前領先的開源影音模型 LTX 2.3 進行微調（Fine-tune）。在實際配音表現上，其對嘴與面部自然度甚至超越了知名商業競爭對手。開源狀態：模型已正式開源，總體積僅約 2.5 GB，非常輕量，適合在本地運行。 2. Pixel3D 技術簡介：這是目前最強大的「單圖轉 3D」生成器之一。使用者只需輸入一張 2D 圖片，系統就能在極短時間內將其轉化為具備高精確度幾何結構與逼真紋理的 3D 模型。核心優勢：相比常見的競爭產品，Pixel3D 的準確度有顯著提升。它採用像素對齊（ Pixel-aligned）技術，明確地將 2D 圖片中的像素與 3D 空間結構進行連結，而非盲目推測，能產出高保真度的 3D 網格（Mesh），非常適合遊戲開發、虛擬製作或產品視覺化。開源狀態：已開源，總模型大小為 24 GB，本地運行需要中高階 GPU。 3. AsymFlow (Asymmetric Flow Models) 技術簡介：這是一種創新的圖像生成架構。傳統的圖像模型是在經壓縮的「潛在空間（ Latent Space）」中生成圖像，再透過 VAE 轉換回人類可見的像素。而 AsymFlow 完全繞過了潛在空間與 VAE，直接在像素空間（Pixel Space）中生成圖像。核心優勢：直接在像素空間運作能帶來超寫實的畫面細節、更銳利的紋理與更高的視覺保真度，有效解決了傳統方法畫面容易流於塑料感或虛假感的問題。此外，透過架構優化，其計算速度提升了 40%，克服了過去像素空間生成耗時的瓶頸。開源狀態：已開源，並釋出了完整的訓練與評估程式碼。 4. SANA WM 技術簡介：由 NVIDIA 推出的一款開源互動式世界模型（Interactive World Model）。其參數規模僅有 2.8B（28億），體積非常小巧。功能特色：用戶只需輸入一張初始圖片、文字提示詞，並配合鍵盤的 WASD 鍵，便能在單張 GPU 上將圖片轉化為可互動的 3D 世界（支援第一人稱和第三人稱視角）。模型具備持續性記憶，當玩家將視角轉開再轉回來時，場景依然保持一致。訓練背景：團隊使用超過 20 萬個帶有相機姿態標籤的公開影片剪輯，在 64 張 H100 GPU 上僅花費 15 天便完成訓練。另有蒸餾（Distilled）版本，可在單張 RTX 5090 上運行，僅需 34 秒即可生成 1 分鐘的互動片段。開源狀態：官方預告即將開源模型。 5. Warp as History 技術簡介：這也是一款互動式世界生成器。同樣透過輸入第一幀圖片、文字提示詞與鍵盤操作來實時生成影片環境。核心優勢：在移動相機視角時，該模型能夠很好地保持整個環境與場景的視覺一致性，並能生成多種不同風格的場景。開源狀態：已在 GitHub 釋出程式碼與模型，並提供訓練與微調的腳本。 6. PhyMotion 技術簡介：這是一個專為影片生成模型設計的物理獎勵系統（Reward System），旨在解決 AI 影片中常見的「人體解剖學錯誤」（例如花式滑冰、瑜珈或功夫等高難度動作中常出現的多肢、缺肢或身體嚴重變形）。工作原理：它會從生成的影片中還原出 3D 人體結構，並將其放入 MuJoCo 物理模擬器中進行物理評估（檢查關節移動是否合理、雙腳與身體是否與地面正確接觸等），進而獎勵符合真實物理規律的生成結果。開源狀態：已釋出程式碼，能有效修正多數動態生成的解剖學問題。 7. Thinking Machines Interactive Models 技術簡介：這是一套即時互動模型（Real-time Interaction Models）。傳統的 AI 語音互動必須輪流發言；而這款模型能同時且持續地接收音訊、影片與文字，並在思考的同時做出即時反應。功能特色：它能捕捉人類對話中的停頓、重疊發言、插嘴與視覺線索（例如看到你手上拿著黑杯子，能即時提醒你是否在喝咖啡），帶來真正如同雙人站在白板前共同協作的體驗。系統由雙模型組成：前端是輕量級的即時互動模型，後端則是處理深度推理、網頁搜尋或工具調用的背景模型。開放狀態：目前尚未開放，預計在未來幾個月內開放限量的研究預覽。 8. CausalCine 技術簡介：這是一個即時生成長篇互動式多鏡頭影片的系統。用戶可以一邊生成影片，一邊即時輸入分鏡級別（Shot-level）的提示詞，宛如導演在現場下達指令。核心優勢：採用「因果生成（Causal Generation）」技術，即時間向前生成，不需要從頭重新計算所有內容。系統會複用先前分鏡的記憶，使角色與場景在多個分鏡切換之間保持極高的一致性，有效減少扭曲與變形。開放狀態：目前僅發表技術論文，尚未有開源或公開計畫。 9. RelitLive 技術簡介：一款非常實用的影片重打光（Video Relighting）工具。它能對任何現有影片進行任意的光影重塑與改造。功能特色：用戶不僅能微調光線的冷暖，還能改變光線的硬度（讓陰影變得生硬或柔和）與光源角度。它甚至支援金屬表面打光，並可輸入「環境地圖（Environmental Map）」，將特定環境的光影完美投影到目標影片中。硬體需求：已開源，建議配備至少 24 GB VRAM 的 CUDA GPU 於本地運行。 10. MiniCPM-V 4.6 技術簡介：一款極其輕量且高效的端側多模態大模型（Vision Language Model），模型總體積僅 2.6 GB。功能特色：它能流暢運行在 iOS、Android 與 Harmony 等主流手機平台上，化身本地視覺助理。不僅能理解文字，還能即時動態分析相機串流、影像和影片。核心優勢：在相同參數規模的模型中，其性能指標處於領先地位。特別是在分析文檔圖表、理解圖形使用者介面（GUI）以及影片理解等任務上，表現出極高的效率與智能（高智商且低 Token 消耗）。開源狀態：已開源並提供下載與運行指南。 11. Krea 2 技術簡介：Krea 團隊從頭構建的第一款圖像基底模型。它不一味追求完美的 Prompt 遵循度，而是更聚焦於風格與創意控制，呈現出一種更具藝術感、帶有自然不完美與動態美感的風格（如包含動態模糊、噪點等）。功能特色：支持「風格克隆」。創意團隊可以上傳一系列參考圖片（例如極簡線條畫、未來主義華麗風格或熱感噴槍風格），讓 Krea 2 完美複製該風格並生成一系列保持品牌視覺一致性的作品。開放狀態：閉源商業模型，目前可在其官方網站體驗使用。 12. Codex on Phone 技術簡介：OpenAI 將其 AI 編碼應用 Codex 帶到了手機端（整合於 iOS 與 Android 的 ChatGPT App 中）。工作原理：這就像是編碼 Agent 的遙控器。你的編碼 Agent 依然在你的電腦（目前僅支援 macOS）上運行，所有檔案、憑證與權限也保留在電腦端，但你可以透過手機隨時監控進度、引導方向、批准命令，或在 Agent 卡住時給予提示。當長工時的編碼任務完成後，手機也會收到通知。開放狀態：已在 ChatGPT 行動端 App 中向所有方案（包括免費版）的用戶陸續推出預覽版。 13. Higgsfield MCP 技術簡介：這是一個專為 Claude、OpenClaude 或 Hermes 等 AI Agent 設計的模型上下文協議（Model Context Protocol, MCP）端點。功能特色：它為 AI Agent 裝上了「雙手」。在同一個對話串中，Claude 可以利用 Higgsfield MCP 直接生成、編輯並交付一整套媒體素材（包括產品照片、海報、社群貼文甚至 UGC 影片），實現端到端的媒體管線建立，無須切換工具或手動導出。開放狀態：商業工具，可透過官方連結進行整合。(業配) 14. Khala 技術簡介：一款全新的開源 AI 音樂生成器，只需輸入文字提示詞與歌詞，即可生成完整的立體聲歌曲。表現評估：影片中展示了溫柔中速的雷鬼風格以及女聲鄉村風格，雖然音質乾淨且立體聲效果好，但在部分歌詞上仍有些許發音不清。目前在開源音樂領域仍有相當不錯的競爭力。 15. ZyNova Flex 2 (超靈巧機器人手掌) 技術簡介：由機器人公司 ZyNova 推出的第二代超靈巧機器人手掌。這款手掌在外觀與重量上高度模擬人類（重量在 400 克以下），但內部集成了極為強大的技術硬體。關鍵規格：具備高達 23 個自由度（Degrees of Freedom, DoF），重複定位精度達到驚人的 0.1 毫米（誤差極低）。力量與感知：最高可承受 12 公斤的抓取負載。內建微型線性致動器（提供高達 150 牛頓的峰值推力）與多模態感測技術，可進行自適應抓取與滑落檢測。精細控制：其力控感應細緻到 0.5 牛頓。當物體即時滑落時它能自發性握緊；反之，若抓取雞蛋等脆弱物體，它能瞬間收回力量以確保安全。其設計巧妙地將沉重的馬達從手指移至前臂與手腕（採用肌腱驅動配置），從而大幅減輕了手掌本身的重量。 16. Unitree GD01 (載人可變形機甲機器人) 技術簡介：由宇樹科技（Unitree）推出的 GD01 是一款載人可變形機甲機器人。駕駛員可以爬進駕駛艙內直接操控它，同時它也具備完全自主行走的動作能力。物理性能：機器連同操作員的總重量約為 500 公斤。GD01 的力量極大，僅憑手肘一擊就能擊倒磚牆並完美保持自身平衡。多形態切換：它不只能用雙足（Bipedal）型態行走，還能隨時切換為四足（ Quadrupedal）型態移動。技術突破：相較於日本或韓國傳統移動極其緩慢、且需要巨大外部纜線或吊車支撐防摔的舊式機甲，GD01 的動作極為流暢，預期未來可應用於建築工程等相關領域。官方售價高達 650,000 美元。 17. Articraft 技術簡介：這是一款極具開創性的 3D 模型生成器，專注於生成具備關節與可動機制的 3D 物件（Articulated 3D Objects），例如包含鉸鏈、滑軌、輪子或關節的機械結構。核心思維（代碼化問題）：Articraft 的核心理念非常聰明，它不直接讓 AI 憑空想像最終的 3D 網格，而是將 3D 生成轉化為代碼問題。它會要求如 GPT 5.5 等編碼 Agent 撰寫一段構建該物件的程式碼，在程式碼中明確定義幾何形狀、零部件與關節，並運行測試來確保機械連動符合邏輯。技術成果：團隊為此構建了名為 Articraft 10K 的數據集，包含 245 個類別、超過 10,000 個可動 3D 資產（涵蓋家具、家電、工具、鍵盤、噴射引擎等），這對機器人模擬訓練（如教導機械手臂如何操作日常物品）與虛擬實境有極大幫助。該系統不綁定特定模型，可對接 GPT、Gemini 或 Claude。 18. ChatGPT Finance (個人財務管理體驗) 技術簡介：OpenAI 直接在 ChatGPT 內部整合了個人財務管理功能。使用者能透過 Plaid （未來也將支援 Intuit）安全地將自己的真實銀行或投資帳戶與 ChatGPT 進行同步。功能特色：同步後，GPT 能建立一個專屬的視覺化儀表板，整合你的投資組合表現、消費習慣、訂閱服務以及即將到來的帳單。這讓 ChatGPT 能基於你真實的財務狀況，提供高度客製化的理財、省錢建議或資產規劃。隱私與安全：系統無法查看使用者的完整帳號，且僅具備「唯讀」權限，無法擅自移動資金或開設新帳戶。使用者能隨時中斷連結、刪除財務記憶，或使用不存取財務資料的「臨時對話」。開放狀態：目前已作為預覽功能，率先對美國境內的網頁端與 iOS 端 ChatGPT Pro 用戶開放。 19. TrackCraft3r 技術簡介：這是一款頂尖的影片像素追蹤 AI。傳統追蹤工具常在長時間或大幅度動作中跟丟，而 TrackCraft3r 能夠在 3D 空間中持續追蹤影片中的每一個像素點。工作原理：它非常巧妙地改造了「影片擴散模型（Video Diffusion Model）」。由於擴散模型在海量影片訓練中已內建了極強的「運動直覺」，團隊將這種直覺引導至追蹤任務上，使其學習隨時間跟隨參考點，進而預測各像素在 3D 空間中的軌跡。優勢與應用：在基準測試中全面擊敗了 Motion Tracker 和 Any 4D。它在處理長影片、劇烈動態（如街舞、奔跑的動物）時極為穩定，且計算效率更高、更省記憶體。可廣泛應用於動態場景理解、物件分割與智慧監控。 20. MoCam 技術簡介：這款 AI 能夠在完全保留影片原始動態的前提下，自由改變影片中的相機鏡頭軌跡（Camera Movement）。功能特色：即便原本只是一段平凡的固定視角畫面，透過 MoCam，你也能指示鏡頭進行環繞主體運鏡、放大、縮小，甚至做出如同經典電影矩陣般的「子彈時間（Bullet Time）」特效。對於影片後期製作、在不同視角下重新取景極具實用價值。開放狀態：官方網頁已上線，並預告程式碼與模型即將開源。 21. DreamX (DreamX World) 技術簡介：這是一款高度靈活的互動式世界模型。用戶不僅能使用鍵盤按鍵（如 WASD）來即時操控第一人稱或第三人稱的相機視角，還能在遊戲生成的中途隨時加入新的文字提示詞（Midway Prompts）。功能特色：例如在移動過程中隨時輸入指令來增加特定的環境元素、改變藝術風格或生成新的角色。開源狀態：目前已開源釋出了 5B（50億）參數量的輕量化模型（雖然畫質較低但執行效率高）。官方計畫在未來推出畫質更高的大型變體版本以及完全實時的互動版本。 22. Gemini Cursor (Google DeepMind AI Pointer) 技術簡介：由 Google DeepMind 重新定義電腦滑鼠游標的顛覆性專案。傳統下游標只負責告訴電腦你「點擊了哪裡」，而結合 AI 後，游標將能理解你「正在看什麼」以及你的「意圖與脈絡」。工作原理：背後由 Gemini 模型驅動。游標停留的位置即是 AI 的視覺上下文。使用者不需再開啟傳統的 Chatbot 視窗並複製貼上內文，只需將游標移到某個區域、PDF 檔案或圖表上，直接口頭或快捷鍵下達「摘要這個」、「幫這張表格產出圓餅圖」或「比較這兩個產品」，AI 就能在原地即時完成。應用進展：此原型技術已開始與 Chrome 瀏覽器及 Google Books 等生態系進行結合，將 AI 完美嵌入現有的工作流中。 23. Scenema (Scenema Audio) 技術簡介：一款極其強大且具備高表現力的語音生成（TTS）與聲音設計工具。舞台指導與情感控制：它不只能克隆聲音，最恐怖的是它能完美遵循「舞台指導（ Stage Directions）」和情緒指示。例如即使輸入的參考音訊是個冷靜沉睡的聲音，但只要在提示詞中加入情境描述（如：「雙手發抖看著中獎彩券、聲音從震驚轉為無法克制的高亢狂喜」），生成的語音就會完美呈現顫抖、狂笑與大喊的情感。技術架構與功能：它甚至能跨越口音（例如將澳洲口音轉為帶有大笑、上氣不接下氣的美國口音）、支持奧巴馬等多國語言翻譯。使用者還能直接在文本中插入行為標籤（ Action Tags）來在中途改變情緒。該模型是團隊從開源影片生成模型 LTX 2.3 中單獨提取出的音訊架構，證實了影音模型的語音生成潛力。開源狀態：已開源，並附帶圖形介面。在本地運行量化版本至少需要 16 GB VRAM 以及 32 GB 以上的系統記憶體（RAM）。 24. DramaBox 技術簡介：由 Resemble AI 推出的語音生成模型，與前述的 Scenema 巧合地採用了幾乎完全相同的技術架構——同樣是從開源影片模型 LTX 2.3 中提取出音訊架構開發而成。語音擬真度：同樣支援精準的聲音克隆與場景語調指導。此外，它在非言語聲學發音（Phonetic Vocalizations）上表現極佳，能在台詞之外自然地融入深呼吸、嘆氣、清喉嚨、反派的邪惡冷笑或反覆歇斯底里的大笑。硬體需求：模型已正式釋出。雖然語音模型本身僅 7 GB，但本地運行還需下載 8 GB 的 Gemma 文字編碼器等組件。官方標註其峰值 VRAM 使用量為 24 GB（透過優化可能可在 16 GB VRAM 上勉強運行），需要中高階 GPU 支援。 -- Gemini整理又多了3個圖片轉場景其中一個是N家老黃的 LTX2.3拆出了兩個語音模型 Pixel3D 看起來比混元3強很多好像不錯機器手看起來很擬真了總覺得會有啥大膽想法 GPT教你恐懼與貪婪 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.204.249 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1778997030.A.973.html

推 qiaffvvf: 推 05/17 13:58

推 patvessel: 看到開源世界模型就進來結果發現他和那個能讓AI建立 05/17 20:02

→ patvessel: 內部因果和接地的世界模型完全是兩回事... 05/17 20:02

推 Jotarun: 看完了現實鋼彈在哪 05/18 10:45