[閒聊] AI科研 AINPC 開源機器人 ..本週AI新聞

作者error405 (流河=L)

看板AI_Art

標題[閒聊] AI科研 AINPC 開源機器人 ..本週AI新聞

時間Sun May 24 12:41:16 2026

https://www.youtube.com/watch?v=pC6KHflGye0

1. Lance：多模態統一模型 [01:02] 技術定位：由字節跳動（ByteDance）推出的統一多模態模型，僅擁有 30 億（3B）參數。主要功能：影片生成與編輯：支援文字生成影片（Text-to-Video）。雖然影片生成品質非當前最頂尖，但其核心強項在於支援連續、多輪的影片編輯。例如：可以透過文字指令精準替換影片背景（如換成火焰）、更改影片中的車輛顏色、或是分步驟拉長並燙捲影片中人物的頭髮、為其戴上花環。視覺理解：具備強大的圖像與影片理解能力。輸入迷宮圖像，它能生成一段「解迷宮」的影片；輸入影片則能準確回答關於影片內容的問題。圖像生成與編輯：支援多種藝術風格（動漫、水彩、賽博朋克、寫實等）的文生圖，並可透過語意指令編輯圖像或將多個參考物件融合進同一張照片中。部署需求：程式碼已開源，但由於是統一多模態模型，本地運行需要至少 40 GB VRAM 的 GPU。 2. LiTo (Surface Light Field Tokenization)：3D 模型生成器 [03:42] 技術定位：由蘋果（Apple）推出的新一代 3D 模型生成技術。核心技術：傳統 3D 重建通常只專注於物體形狀的還原，而 LiTo 引入了「表面光線場標記化」概念，著重於捕捉物體在不同視角下的視覺變化（View-dependent）。主要特點：這對於表現反光、具有光澤的真實物體尤為重要。當使用者從不同角度觀察時，LiTo 生成的 3D 模型能更精準地保留表面細節與光影隨視角轉變的動態表現。相比其他領先的 3D 生成器（如 Trellis），LiTo 在還原度與精準度上更具優勢。程式碼與訓練腳本均已開源。 3. Flash GRPO：影片模型對齊系統 [04:57] 技術定位：用於將大型影片生成模型與人類偏好進行對齊（Alignment）的高效優化系統。解決痛點：對數十億參數的影片模型進行對齊訓練，傳統上每個實驗需要耗費數百個 GPU 天，代價極高。核心優化： Flash GRPO 不在每次優化時都跑完完整的擴散軌跡（diffusion trajectory），而是利用兩種核心技巧：等時分組（Isotemporal Grouping）：透過在相同的採樣時間步長（time step ）下對 Rollouts 進行分組，確保對比的公平性。時間梯度校正（Temporal Gradient Rectification）：防止訓練過程產生扭曲。成果：訓練學習速度大幅超越傳統方法（如 Flow GRPO Fast），能以極低成本顯著提升影片生成的細節、寫實度、以及物理運動的準確性。GitHub 專案已開源。 4. ReactiveGWM (Reactive Game World Model)：反應式遊戲世界模型 [06:44] 技術定位：基於 AI 影片模型生成的「可操控遊戲世界模型」。核心技術：傳統的影片模型中，非玩家角色（NPC）只是單純的背景像素。 ReactiveGWM 將玩家的操作輸入與 NPC 的高階行動策略拆分，並透過交叉注意力機制（ Cross Attention）注入模型中。主要功能：以格鬥遊戲（如《快打旋風》）為例，畫面完全是由 AI 影片模型實時生成的。使用者可以透過鍵盤方向鍵控制角色攻擊，同時還能「下指令」給對手 NPC，要求對方採取進攻、防守或其他策略。這為未來的可控遊戲模擬與模擬器開發提供了全新方向。可基於 UniAnimate 1.2 在中高階 GPU 上運行，專案已開源。 5. L2P：直接像素空間擴散模型 [08:20] 技術定位：一款直接在像素空間中運行的圖像生成擴散模型。核心技術：傳統擴散模型（如 Stable Diffusion）為了節省算力，會在壓縮的「潛在空間（Latent Space）」中生成圖像，再透過 VAE 轉換回大眾看見的像素。L2P 團隊徹底移除了 VAE 和潛在空間的步驟，直接在像素空間進行計算。主要特點：避免了潛在空間帶來的細節與精準度損失，能生成極高畫質（支援 4K 甚至 8K 擴展）的圖像。基準測試顯示，它是目前性能最強的像素級擴散模型，圖像品質甚至超越了部分開源的潛在空間模型（如 Qwen 或 SDXL Turbo）。目前已釋出 1K 解析度的模型（大小約 20 GB）。 6. Carbon：DNA 開源基礎模型 [10:29] 技術定位：針對生物學 DNA 序列設計的開源基礎大語言模型。核心技術：將 DNA 的四種鹼基（G、C、A、T）視為生命的語言，像 ChatGPT 學習自然語言文法一樣，透過預測下一個鹼基來學習遺傳學規則。主要特點：超長上下文：一次可處理近 40 萬個 DNA 鹼基對。極高速度：號稱目前最快的開源 DNA 基礎模型，比 EVO 2 的中型版本快 275 倍，可在兩天內利用單個 GPU 處理完完整的人類基因組。功能：支援基因序列續寫、基因變異評分、以及預測蛋白質的 3D 結構。模型體積小巧，最大（8B 參數）約 16.5 GB，最小（500M 參數）僅 1 GB，且支援 GGUF 格式，極大幅度降低了生物學研究者的本地硬體門檻。 7. LongCat Video Avatar 1.5：虛擬分身生成器 [12:53] 技術定位：美團（Meituan）推出的最新一代說話虛擬分身（Talking Avatar）生成模型。主要功能：只需要輸入一張人物的參考圖片與一段音訊，模型即可生成自然、穩定的說話影片，口型與面部表情更具表現力。多元風格：除了寫實人像，亦支援動漫、2D 畫風等不同藝術風格。多人互動：支援單一音訊中包含多個聲音時，生成多個人物分身互動說話的場景。部署需求：已釋出 int8 版本的模型（大小約 16 GB），可在中高階消費級 GPU 上本地運行。 8. MegaASR (Mega Speech Recognition)：強健語音辨識模型 [15:47] 技術定位：清華大學等團隊針對「現實環境雜音」開發的語音轉文字（ASR）模型。解決痛點：傳統模型在乾淨的錄音中表現優異，但在充斥噪音、回音、混響、麥克風爆音的現實環境中錯誤率極高。技術特點：研發團隊在包含噪音、遠場、障礙物干擾、回音、電子失真等 7 大核心聲學問題的 260 萬個樣本上進行訓練。成果：在惡劣的聲學環境中，MegaASR 的辨識精準度較現有頂尖開源與商業模型（如 Gemini 3 Pro、Qwen 3 ASR）提升了將近 30%。整個模型大小不到 5 GB，對硬體極為友善。 9. HY-MT2：多語言翻譯模型家族 [18:49] 技術定位：騰訊（Tencent）開源的大型多語言翻譯模型家族，最大版本擁有 300 億（30B）參數。核心技術：採用混合專家架構（MoE），在運行 30B 模型時，實際僅有 3B 參數處於活化狀態，運算極高效率。另外提供 7B 與 1.8B 的小版本。主要特點：專為嚴格執行複雜翻譯指令而設計。企業或研發者在翻譯 product 頁面、JSON 檔案、字幕或商務文件時，常需要保留特定格式、結構標籤（Delimiters）或專業術語。HY-MT2 具備極強的指令遵循能力，在專業領域（金融、法律、醫療、政治等）的翻譯基準測試中，表現超越了體積大其數倍的開源模型（如 DeepSeek V4）。1.8B 版本僅 4 GB，一般消費級 GPU 即可流暢運行。 10. Higgfield Supercomputer：視覺化與市調全流程 AI 智能體 [21:15] 技術定位：（本段為影片贊助商內容）一套主打「視覺內容創作與商務落地（ Go-To-Market）」的綜合 AI 平台。主要功能：傳統 AI 智能體通常只專注於單一任務（如單純寫程式或單純做研究），而 Higgfield 的系統串聯了多個底層模型（如 Seed、Voice、Cling 等），能包攬整個創意行銷工作流：從發現市場空白、建立品牌視覺（Brand Book）、生成網站、剪輯產品發表影片、創建 AI 虛擬網紅，到投放廣告與 reposition 產品。視覺分析與重建：投放一段 TikTok 或 YouTube 影片，它能自動分析畫面、音訊、節奏與構圖，並利用角色持久化（persistent storyboard）等技術，以使用者的產品、面孔或 AI 網紅 scene-by-scene 重新複製出相同高質感的行銷影片。 (業配) 11. AI Co-scientist：多智能體科研合作系統 [23:20] 技術定位： Google DeepMind 研發並發表在《自然》（Nature）期刊上的多智能體（Multi-agent）AI 科研協作系統核心技術：它並非單一的大模型問答機器人，而是由一整組各自專精的 AI 科研智能體組成的團隊。主要特點：內部辯論機制：智能體之間會互相質疑、進行辯論、批評彼此的點子並修正假設，運作模式如同一個真實的科學家實驗室團隊。科研加速：科學家只需輸入一個目標或科學難題，系統便會主動搜索大量文獻、識別研究空白、產生假設並提出可用於現實世界驗證的實驗方案。應用實例： DeepMind 展示了其在藥物研發與生物醫學領域（例如尋找治療肝纖維化新藥）的潛力，旨在成為科學家的最佳研究夥伴，幫助人類過濾海量資訊並探索未曾想過的新科研方向。 12. Marlin 2B：輕量級影片結構化分析模型技術定位：基於 Qwen 3.5 2B 開發的 20 億參數微型影片語言模型，專注於高效的影片資訊提取。主要功能：時序定位（Event Grounding）：專門解答影片中「發生了什麼（What）」以及「何時發生（When）」。使用者輸入特定的事件指令（例如：搜尋槍戰畫面），模型能精準預測並輸出該事件在影片中的精確開始與結束時間戳記。影片摘要與標籤：支援自動生成場景描述與帶時間戳記的事件列表。技術優勢：雖然僅有 2B 參數，但在多項短片字幕與分析基準測試中，其表現媲美體積大其數倍的閉源模型（如 Gemini 2.5 Flash）。模型總體積小於 6 GB，極其適合在低階或消費級 GPU 上進行本地部署，廣泛應用於影片檢索、安全審查、剪輯與數據集自動標籤。 13. Qwen 3.7 Max：全面進化的 AI 智能體模型技術定位：阿里巴巴推出的 Qwen 系列最新旗艦變體，本次聚焦於 Agentic（智能體）架構能力的飛躍。核心技術：該模型不再只是單純回答一問一答的問題，而是專為多步驟、需要自主規劃（Planning）、結果檢查與反思反覆運算（Iteration）的複雜任務而設計。主要特點：寫程式與推理：在智能體編碼與推理基準測試中，表現與當前頂尖的 Open 模型（如 DeepSeek V4、GLM 5.1、Kimi K2.6）並駕齊驅，能流暢接入 Cloud Code、 OpenClaw 等主流智能體平台。多模態落地：具備強大的視覺能力，可作為「大腦」直接嵌入實體機器人中（如影片中展示的機器狗），實時分析視覺相機畫面以自主導航並穿越複雜環境。獲取管道：目前已透過阿里巴巴的阿里雲模型服務（Model Studio）和 API 開放使用。 14. Qwen 3.5 Live Translate：實時視覺多模態翻譯模型技術定位：阿里巴巴推出的實時語音與視覺雙重多模態翻譯系統。核心技術：傳統語音翻譯僅依靠「聽覺」輸入，而 Qwen 3.5 Live Translate 引入了視覺上下文（Visual Context）。主要特點：視覺消除歧義：當說話者提到具有多義的詞彙時（例如 "Muscle" 可以指貝類的貽貝肉，也可以指人類的肌肉），模型能透過攝影機畫面看見的事物，精準給出正確的翻譯。流暢的流式輸出：採用了「可讀單元翻譯策略（Readable Unit Translation Strategy）」，在使用者還沒完整說完句子前，模型就已經開始實時同步翻譯。它還能實時分析電商直播畫面，結合畫面的商品規格圖進行精準同聲傳譯。目前支援多達 60 種語言的語音轉文字翻譯，並提供線上免費體驗 Demo。 15. Robot++：磁吸雙臂壁面爬行工業機器人技術定位：由 Robot++（史河機器人）研發的高負載、重型工業維護機器人。核心技術：採用特製的特種輪式磁力吸附技術（Specialized Wheeled Magnetic Suction），使機器人能夠牢固地抓緊並平穩地在垂直、高空或具有弧度的鋼鐵表面（如大型化工儲罐、貨輪外殼）上行駛而絕不滑落。主要功能：機器人擁有雙臂，能自主或透過地面作業員配戴 VR 頭盔進行遠端遙控（ Teleoperation）。支援快速更換打磨盤、噴槍、雷射探頭等工業工具，執行除鏽、剝除舊漆、高壓噴塗、鋼板與焊縫完整性無損檢測（NDT）等高風險高空作業。目前已實際服務超過 10,000 艘船舶，是極少數完全走出實驗室、進入高難度實戰的重工業機器人。 16. LeRobot (Hugging Face Robot Humanoid)：開源 3D 列印人型機器人平台技術定位： Hugging Face 團隊發布的全面開源人型機器人硬體與軟體生態系統。核心理念：旨在將昂貴的機器人學研究門檻降低，打造一個價格親民的「機器人學習遊樂場（Robot Learning Playground）」。主要特點：硬體成本極低：整台機器人採用 3D 列印件、市售現成零組件與平價電子元件，核心硬體材料成本僅約 $2500 美元。全棧開放：官方免費提供完整的 3D 設計圖紙、零件清單、組裝指南、接線圖、模擬工具、訓練環境（Sim-to-Real 模擬轉現實學習）以及底層運行軟體。其並非定位為量產的消費級精緻產品，而是提供給全球研究人員與自客自主修改設計、維修零件、並反覆運算訓練 AI 運動策略（Movement Policies）的實驗性平台。 17. Unitree G1 Voice Commands：實時語音交互人形機器人技術定位：宇樹科技（Unitree Robotics）展示其人型機器人 G1 的全新大模型交互技術。核心亮點：過去宇樹機器人主要展示空翻、跳舞、武術等高難度運動控制（透過預先編程或特定搖控）。本次技術展示聚焦於純語音指令的即時自主解析與執行。主要特點：在完全不中斷、無剪輯的一條龍實時錄影中，機器人展現了極低的響應延遲。當接收到人類隨口說出的自然語言指令時（例如：跳躍、平板撐、轉身、扭胯、深蹲、甚至跳高達風格的舞蹈與鞠躬），機器人能不依賴預設軌跡，實時理解語意並自適應完成一套複雜的運動鏈。這預示著未來機器人將徹底擺脫繁瑣的程式碼編寫，進入真正的自然對話操控時代。 18. CogOmniControl：多參考輸入影片生成控制網技術定位：由清華大學等團隊研發的影片生成精細控制系統，可被視為影片生成領域的 ControlNet。核心技術：傳統影片生成難以精準約束動作與內容。CogOmniControl 允許創作者同時注入多種不同維度的參考輸入來協同導引擴散模型的生成方向。主要功能：草圖動畫控制：使用者可以輸入一段僅有 3 個骨架格（Frames）的極簡粗糙線稿或草圖，再搭配一張靜態角色參考圖與文字提示，模型即可擴散出完全遵循草圖動作軌跡的高畫質流暢影片。多元控制條件：系統支援人體姿態骨架動畫（Pose Skeleton）、線條藝術（ Line Art）以及語意引導的並行控制，在強烈約束影片內角色動作與背景構圖的同時，依然能完美維持參考角色外觀與穿著的跨幀視覺一致性，極大程度解決了動畫工作流中「角色走樣」與「不可控」的痛點（目前已發布技術論文）。 19. WavFlow：原始波形空間音訊擴散模型技術定位： Meta 團隊推出的「影片自動配音」擴散模型，能為無聲影片自動合成精準對齊的音效與環境音。核心技術：當前的音訊大模型大多先將音訊壓縮到「潛在空間（Latent Space）」進行生成以節省算力，最後再以解碼器復原。WavFlow 團隊完全跳過了 VAE 與潛在空間的壓縮步驟，直接在原始波形空間（Raw Waveform Space）中進行音訊擴散與建構。主要特點：這種直達底層的設計，在理論上能帶來更乾淨、失真度更低且更為逼真的音質。影片實測顯示其在爵士鼓、吉他等打擊與弦樂的「聲畫同步率」上表現亮眼，不過對於需要極高音高精準度的鋼琴按鍵聲音理解仍有提升空間。目前開源了安裝指南與訓練腳本，但受限於公司政策，未釋出完整的商業預訓練權重。 20. PanoWorld：生成式 3D 全景虛擬空間模型技術定位：一款專為建築設計、室內裝潢及虛擬實境（VR）房產導覽設計的空間生成式世界模型。核心技術：傳統圖像生成模型在生成全景圖時，一旦切換視角（Viewpoint），房間結構、家具位置與材質便會發生嚴重的視覺崩塌與不一致。PanoWorld 引入了「3D 外殼（3D Shell）」記憶機制。主要特點：使用者只需輸入一張二維戶型平面圖（Floor Plan）與風格參考圖，系統便會生成整套彼此相連、 furnished（配有家具）的多房間 3D 全景虛擬巡禮。當使用者在虛擬房屋中的不同節點間「走動與傳送」切換視角時，系統會動態更新該 3D 視覺記憶，而非重新盲目生成，從而完美保證了整個房屋格局的空間一致性。它支援一鍵實時切換法式奢華、現代極簡等設計風格，相關專案即將開源。 21. Stable Audio 3：長時長音樂與音效生成家族技術定位： Stability AI 推出的最新一代開源音樂與聲效生成模型家族。主要規格：包含 Small（小型）、Medium（中型，約 14 億參數）以及暫未開源、僅限 API 存取的 Large（大型）版本。核心功能：超長音樂生成： Medium 模型僅 1.4B 參數，卻展現了極高的算力效率，可憑藉文字提示詞直接生成長達 6 分 20 秒、結構連貫的高品質音樂軌；Small 模型則可生成最長 2 分鐘的音軌。多元音訊工作流：專門推出了針對短音效合成的 SFX 版本。此外，該版本完整支援 LoRA 微調訓練文檔，並具備強大的音訊修補（Inpainting）與音訊延展（ Extension）能力，允許音樂人將特定片段作為聲音參考進行續寫或局部的音色修改。中型模型大小僅約 10 GB，能輕鬆塞進主流消費級 GPU 的顯示記憶體中。 22. FashionChameleon：實時影片虛擬試穿技術技術定位：阿里巴巴開發的突破性實時影片動態虛擬試穿（Virtual Try-On）系統。核心技術：傳統影片試穿需要極其龐大且高昂的「模特兒穿著特定服裝」影片數據集進行訓練。FashionChameleon 採用了免訓練的「鍵值快取重新調度（KV Cache Rescheduling）」技巧，配合情境學習（In-Context Learning）與知識蒸餾。主要特點：該技術僅需利用單件衣服的靜態或簡單影片數據，就能在生成影片時實時動態替換服裝。影片中的模特兒在進行轉身、擺動等大幅度連續肢體動作時，其人體形體與運動軌跡能保持完美穩定，而衣服的皺褶、材質與光影則會在對應的時間點精準貼合並置換。最驚人的是其運行效率：在單張 GPU 上即可達到將近每秒 24 幀（24 FPS）的接近實時生成速度，比現有的技術基準快了 30 到 180 倍，為直播電商與數位時尚產業帶來巨大的商用潛力（官方計劃開源程式碼與權重）。 -- Gemini3.5整理變強有感影片版controlnet覺得有點潛力 AI版NPC直接拿影片模型做的話豈不是不需要真的做遊戲了就看以後能做多複雜 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.237.148 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1779597678.A.D4A.html