看板 AI_Art
https://www.youtube.com/watch?v=pC6KHflGye0
1. Lance:多模態統一模型 [01:02] 技術定位: 由字節跳動(ByteDance)推出的統一多模態模型,僅擁有 30 億(3B) 參數。 主要功能: 影片生成與編輯: 支援文字生成影片(Text-to-Video)。雖然影片生成品質非 當前最頂尖,但其核心強項在於支援連續、多輪的影片編輯。例如:可以透過文字指令精 準替換影片背景(如換成火焰)、更改影片中的車輛顏色、或是分步驟拉長並燙捲影片中 人物的頭髮、為其戴上花環。 視覺理解: 具備強大的圖像與影片理解能力。輸入迷宮圖像,它能生成一段「 解迷宮」的影片;輸入影片則能準確回答關於影片內容的問題。 圖像生成與編輯: 支援多種藝術風格(動漫、水彩、賽博朋克、寫實等)的文 生圖,並可透過語意指令編輯圖像或將多個參考物件融合進同一張照片中。 部署需求: 程式碼已開源,但由於是統一多模態模型,本地運行需要至少 40 GB VRAM 的 GPU。 2. LiTo (Surface Light Field Tokenization):3D 模型生成器 [03:42] 技術定位: 由蘋果(Apple)推出的新一代 3D 模型生成技術。 核心技術: 傳統 3D 重建通常只專注於物體形狀的還原,而 LiTo 引入了「表面光 線場標記化」概念,著重於捕捉物體在不同視角下的視覺變化(View-dependent)。 主要特點: 這對於表現反光、具有光澤的真實物體尤為重要。當使用者從不同角度 觀察時,LiTo 生成的 3D 模型能更精準地保留表面細節與光影隨視角轉變的動態表現。 相比其他領先的 3D 生成器(如 Trellis),LiTo 在還原度與精準度上更具優勢。程式 碼與訓練腳本均已開源。 3. Flash GRPO:影片模型對齊系統 [04:57] 技術定位: 用於將大型影片生成模型與人類偏好進行對齊(Alignment)的高效優化 系統。 解決痛點: 對數十億參數的影片模型進行對齊訓練,傳統上每個實驗需要耗費數百 個 GPU 天,代價極高。 核心優化: Flash GRPO 不在每次優化時都跑完完整的擴散軌跡(diffusion trajectory),而是利用兩種核心技巧: 等時分組(Isotemporal Grouping): 透過在相同的採樣時間步長(time step )下對 Rollouts 進行分組,確保對比的公平性。 時間梯度校正(Temporal Gradient Rectification): 防止訓練過程產生扭曲 。 成果: 訓練學習速度大幅超越傳統方法(如 Flow GRPO Fast),能以極低成本顯著 提升影片生成的細節、寫實度、以及物理運動的準確性。GitHub 專案已開源。 4. ReactiveGWM (Reactive Game World Model):反應式遊戲世界模型 [06:44] 技術定位: 基於 AI 影片模型生成的「可操控遊戲世界模型」。 核心技術: 傳統的影片模型中,非玩家角色(NPC)只是單純的背景像素。 ReactiveGWM 將玩家的操作輸入與 NPC 的高階行動策略拆分,並透過交叉注意力機制( Cross Attention)注入模型中。 主要功能: 以格鬥遊戲(如《快打旋風》)為例,畫面完全是由 AI 影片模型實時 生成的。使用者可以透過鍵盤方向鍵控制角色攻擊,同時還能「下指令」給對手 NPC,要 求對方採取進攻、防守或其他策略。這為未來的可控遊戲模擬與模擬器開發提供了全新方 向。可基於 UniAnimate 1.2 在中高階 GPU 上運行,專案已開源。 5. L2P:直接像素空間擴散模型 [08:20] 技術定位: 一款直接在像素空間中運行的圖像生成擴散模型。 核心技術: 傳統擴散模型(如 Stable Diffusion)為了節省算力,會在壓縮的「潛 在空間(Latent Space)」中生成圖像,再透過 VAE 轉換回大眾看見的像素。L2P 團隊 徹底移除了 VAE 和潛在空間的步驟,直接在像素空間進行計算。 主要特點: 避免了潛在空間帶來的細節與精準度損失,能生成極高畫質(支援 4K 甚至 8K 擴展)的圖像。基準測試顯示,它是目前性能最強的像素級擴散模型,圖像品質 甚至超越了部分開源的潛在空間模型(如 Qwen 或 SDXL Turbo)。目前已釋出 1K 解析 度的模型(大小約 20 GB)。 6. Carbon:DNA 開源基礎模型 [10:29] 技術定位: 針對生物學 DNA 序列設計的開源基礎大語言模型。 核心技術: 將 DNA 的四種鹼基(G、C、A、T)視為生命的語言,像 ChatGPT 學習 自然語言文法一樣,透過預測下一個鹼基來學習遺傳學規則。 主要特點: 超長上下文: 一次可處理近 40 萬個 DNA 鹼基對。 極高速度: 號稱目前最快的開源 DNA 基礎模型,比 EVO 2 的中型版本快 275 倍,可在兩天內利用單個 GPU 處理完完整的人類基因組。 功能: 支援基因序列續寫、基因變異評分、以及預測蛋白質的 3D 結構。模型體積 小巧,最大(8B 參數)約 16.5 GB,最小(500M 參數)僅 1 GB,且支援 GGUF 格式, 極大幅度降低了生物學研究者的本地硬體門檻。 7. LongCat Video Avatar 1.5:虛擬分身生成器 [12:53] 技術定位: 美團(Meituan)推出的最新一代說話虛擬分身(Talking Avatar)生成 模型。 主要功能: 只需要輸入一張人物的參考圖片與一段音訊,模型即可生成自然、穩定的說話影 片,口型與面部表情更具表現力。 多元風格: 除了寫實人像,亦支援動漫、2D 畫風等不同藝術風格。 多人互動: 支援單一音訊中包含多個聲音時,生成多個人物分身互動說話的場 景。 部署需求: 已釋出 int8 版本的模型(大小約 16 GB),可在中高階消費級 GPU 上 本地運行。 8. MegaASR (Mega Speech Recognition):強健語音辨識模型 [15:47] 技術定位: 清華大學等團隊針對「現實環境雜音」開發的語音轉文字(ASR)模型。 解決痛點: 傳統模型在乾淨的錄音中表現優異,但在充斥噪音、回音、混響、麥克 風爆音的現實環境中錯誤率極高。 技術特點: 研發團隊在包含噪音、遠場、障礙物干擾、回音、電子失真等 7 大核心 聲學問題的 260 萬個樣本上進行訓練。 成果: 在惡劣的聲學環境中,MegaASR 的辨識精準度較現有頂尖開源與商業模型( 如 Gemini 3 Pro、Qwen 3 ASR)提升了將近 30%。整個模型大小不到 5 GB,對硬體極為 友善。 9. HY-MT2:多語言翻譯模型家族 [18:49] 技術定位: 騰訊(Tencent)開源的大型多語言翻譯模型家族,最大版本擁有 300 億(30B)參數。 核心技術: 採用混合專家架構(MoE),在運行 30B 模型時,實際僅有 3B 參數處 於活化狀態,運算極高效率。另外提供 7B 與 1.8B 的小版本。 主要特點: 專為嚴格執行複雜翻譯指令而設計。企業或研發者在翻譯 product 頁面 、JSON 檔案、字幕或商務文件時,常需要保留特定格式、結構標籤(Delimiters)或專 業術語。HY-MT2 具備極強的指令遵循能力,在專業領域(金融、法律、醫療、政治等) 的翻譯基準測試中,表現超越了體積大其數倍的開源模型(如 DeepSeek V4)。1.8B 版 本僅 4 GB,一般消費級 GPU 即可流暢運行。 10. Higgfield Supercomputer:視覺化與市調全流程 AI 智能體 [21:15] 技術定位: (本段為影片贊助商內容)一套主打「視覺內容創作與商務落地( Go-To-Market)」的綜合 AI 平台。 主要功能: 傳統 AI 智能體通常只專注於單一任務(如單純寫程式或單純做研究) ,而 Higgfield 的系統串聯了多個底層模型(如 Seed、Voice、Cling 等),能包攬整 個創意行銷工作流:從發現市場空白、建立品牌視覺(Brand Book)、生成網站、剪輯產 品發表影片、創建 AI 虛擬網紅,到投放廣告與 reposition 產品。 視覺分析與重建: 投放一段 TikTok 或 YouTube 影片,它能自動分析畫面、音訊、 節奏與構圖,並利用角色持久化(persistent storyboard)等技術,以使用者的產品、 面孔或 AI 網紅 scene-by-scene 重新複製出相同高質感的行銷影片。 (業配) 11. AI Co-scientist:多智能體科研合作系統 [23:20] 技術定位: Google DeepMind 研發並發表在《自然》(Nature)期刊上的多智能體 (Multi-agent)AI 科研協作系統 核心技術: 它並非單一的大模型問答機器人,而是由一整組各自專精的 AI 科研智 能體組成的團隊。 主要特點: 內部辯論機制: 智能體之間會互相質疑、進行辯論、批評彼此的點子並修正假 設,運作模式如同一個真實的科學家實驗室團隊。 科研加速: 科學家只需輸入一個目標或科學難題,系統便會主動搜索大量文獻 、識別研究空白、產生假設並提出可用於現實世界驗證的實驗方案。 應用實例: DeepMind 展示了其在藥物研發與生物醫學領域(例如尋找治療肝纖維化 新藥)的潛力,旨在成為科學家的最佳研究夥伴,幫助人類過濾海量資訊並探索未曾想過 的新科研方向。 12. Marlin 2B:輕量級影片結構化分析模型 技術定位: 基於 Qwen 3.5 2B 開發的 20 億參數微型影片語言模型,專注於高效的 影片資訊提取。 主要功能: 時序定位(Event Grounding): 專門解答影片中「發生了什麼(What)」以及 「何時發生(When)」。使用者輸入特定的事件指令(例如:搜尋槍戰畫面),模型能精 準預測並輸出該事件在影片中的精確開始與結束時間戳記。 影片摘要與標籤: 支援自動生成場景描述與帶時間戳記的事件列表。 技術優勢: 雖然僅有 2B 參數,但在多項短片字幕與分析基準測試中,其表現媲美 體積大其數倍的閉源模型(如 Gemini 2.5 Flash)。模型總體積小於 6 GB,極其適合在 低階或消費級 GPU 上進行本地部署,廣泛應用於影片檢索、安全審查、剪輯與數據集自 動標籤。 13. Qwen 3.7 Max:全面進化的 AI 智能體模型 技術定位: 阿里巴巴推出的 Qwen 系列最新旗艦變體,本次聚焦於 Agentic(智能 體)架構能力 的飛躍。 核心技術: 該模型不再只是單純回答一問一答的問題,而是專為多步驟、需要自主 規劃(Planning)、結果檢查與反思反覆運算(Iteration)的複雜任務而設計。 主要特點: 寫程式與推理: 在智能體編碼與推理基準測試中,表現與當前頂尖的 Open 模 型(如 DeepSeek V4、GLM 5.1、Kimi K2.6)並駕齊驅,能流暢接入 Cloud Code、 OpenClaw 等主流智能體平台。 多模態落地: 具備強大的視覺能力,可作為「大腦」直接嵌入實體機器人中( 如影片中展示的機器狗),實時分析視覺相機畫面以自主導航並穿越複雜環境。 獲取管道: 目前已透過阿里巴巴的阿里雲模型服務(Model Studio)和 API 開放使 用。 14. Qwen 3.5 Live Translate:實時視覺多模態翻譯模型 技術定位: 阿里巴巴推出的實時語音與視覺雙重多模態翻譯系統。 核心技術: 傳統語音翻譯僅依靠「聽覺」輸入,而 Qwen 3.5 Live Translate 引入 了視覺上下文(Visual Context)。 主要特點: 視覺消除歧義: 當說話者提到具有多義的詞彙時(例如 "Muscle" 可以指貝類 的貽貝肉,也可以指人類的肌肉),模型能透過攝影機畫面看見的事物,精準給出正確的 翻譯。 流暢的流式輸出: 採用了「可讀單元翻譯策略(Readable Unit Translation Strategy)」,在使用者還沒完整說完句子前,模型就已經開始實時同步翻譯。它還能實 時分析電商直播畫面,結合畫面的商品規格圖進行精準同聲傳譯。目前支援多達 60 種語 言的語音轉文字翻譯,並提供線上免費體驗 Demo。 15. Robot++:磁吸雙臂壁面爬行工業機器人 技術定位: 由 Robot++(史河機器人)研發的高負載、重型工業維護機器人。 核心技術: 採用特製的特種輪式磁力吸附技術(Specialized Wheeled Magnetic Suction),使機器人能夠牢固地抓緊並平穩地在垂直、高空或具有弧度的鋼鐵表面(如 大型化工儲罐、貨輪外殼)上行駛而絕不滑落。 主要功能: 機器人擁有雙臂,能自主或透過地面作業員配戴 VR 頭盔進行遠端遙控( Teleoperation)。 支援快速更換打磨盤、噴槍、雷射探頭等工業工具,執行除鏽、剝除舊漆、高壓 噴塗、鋼板與焊縫完整性無損檢測(NDT)等高風險高空作業。目前已實際服務超過 10,000 艘船舶,是極少數完全走出實驗室、進入高難度實戰的重工業機器人。 16. LeRobot (Hugging Face Robot Humanoid):開源 3D 列印人型機器人平台 技術定位: Hugging Face 團隊發布的全面開源人型機器人硬體與軟體生態系統。 核心理念: 旨在將昂貴的機器人學研究門檻降低,打造一個價格親民的「機器人學 習遊樂場(Robot Learning Playground)」。 主要特點: 硬體成本極低: 整台機器人採用 3D 列印件、市售現成零組件與平價電子元件 ,核心硬體材料成本僅約 $2500 美元。 全棧開放: 官方免費提供完整的 3D 設計圖紙、零件清單、組裝指南、接線圖 、模擬工具、訓練環境(Sim-to-Real 模擬轉現實學習)以及底層運行軟體。其並非定位 為量產的消費級精緻產品,而是提供給全球研究人員與自客自主修改設計、維修零件、並 反覆運算訓練 AI 運動策略(Movement Policies)的實驗性平台。 17. Unitree G1 Voice Commands:實時語音交互人形機器人 技術定位: 宇樹科技(Unitree Robotics)展示其人型機器人 G1 的全新大模型交 互技術。 核心亮點: 過去宇樹機器人主要展示空翻、跳舞、武術等高難度運動控制(透過預 先編程或特定搖控)。本次技術展示聚焦於純語音指令的即時自主解析與執行。 主要特點: 在完全不中斷、無剪輯的一條龍實時錄影中,機器人展現了極低的響應 延遲。當接收到人類隨口說出的自然語言指令時(例如:跳躍、平板撐、轉身、扭胯、深 蹲、甚至跳高達風格的舞蹈與鞠躬),機器人能不依賴預設軌跡,實時理解語意並自適應 完成一套複雜的運動鏈。這預示著未來機器人將徹底擺脫繁瑣的程式碼編寫,進入真正的 自然對話操控時代。 18. CogOmniControl:多參考輸入影片生成控制網 技術定位: 由清華大學等團隊研發的影片生成精細控制系統,可被視為影片生成領 域的 ControlNet。 核心技術: 傳統影片生成難以精準約束動作與內容。CogOmniControl 允許創作者同 時注入多種不同維度的參考輸入來協同導引擴散模型的生成方向。 主要功能: 草圖動畫控制: 使用者可以輸入一段僅有 3 個骨架格(Frames)的極簡粗糙線 稿或草圖,再搭配一張靜態角色參考圖與文字提示,模型即可擴散出完全遵循草圖動作軌 跡的高畫質流暢影片。 多元控制條件: 系統支援人體姿態骨架動畫(Pose Skeleton)、線條藝術( Line Art)以及語意引導的並行控制,在強烈約束影片內角色動作與背景構圖的同時,依 然能完美維持參考角色外觀與穿著的跨幀視覺一致性,極大程度解決了動畫工作流中「角 色走樣」與「不可控」的痛點(目前已發布技術論文)。 19. WavFlow:原始波形空間音訊擴散模型 技術定位: Meta 團隊推出的「影片自動配音」擴散模型,能為無聲影片自動合成精 準對齊的音效與環境音。 核心技術: 當前的音訊大模型大多先將音訊壓縮到「潛在空間(Latent Space)」 進行生成以節省算力,最後再以解碼器復原。WavFlow 團隊完全跳過了 VAE 與潛在空間 的壓縮步驟,直接在原始波形空間(Raw Waveform Space)中進行音訊擴散與建構。 主要特點: 這種直達底層的設計,在理論上能帶來更乾淨、失真度更低且更為逼真 的音質。影片實測顯示其在爵士鼓、吉他等打擊與弦樂的「聲畫同步率」上表現亮眼,不 過對於需要極高音高精準度的鋼琴按鍵聲音理解仍有提升空間。目前開源了安裝指南與訓 練腳本,但受限於公司政策,未釋出完整的商業預訓練權重。 20. PanoWorld:生成式 3D 全景虛擬空間模型 技術定位: 一款專為建築設計、室內裝潢及虛擬實境(VR)房產導覽設計的空間生 成式世界模型。 核心技術: 傳統圖像生成模型在生成全景圖時,一旦切換視角(Viewpoint),房間 結構、家具位置與材質便會發生嚴重的視覺崩塌與不一致。PanoWorld 引入了「3D 外殼 (3D Shell)」記憶機制。 主要特點: 使用者只需輸入一張二維戶型平面圖(Floor Plan)與風格參考圖,系 統便會生成整套彼此相連、 furnished(配有家具)的多房間 3D 全景虛擬巡禮。當使用 者在虛擬房屋中的不同節點間「走動與傳送」切換視角時,系統會動態更新該 3D 視覺記 憶,而非重新盲目生成,從而完美保證了整個房屋格局的空間一致性。它支援一鍵實時切 換法式奢華、現代極簡等設計風格,相關專案即將開源。 21. Stable Audio 3:長時長音樂與音效生成家族 技術定位: Stability AI 推出的最新一代開源音樂與聲效生成模型家族。 主要規格: 包含 Small(小型)、Medium(中型,約 14 億參數)以及暫未開源、 僅限 API 存取的 Large(大型)版本。 核心功能: 超長音樂生成: Medium 模型僅 1.4B 參數,卻展現了極高的算力效率,可憑藉 文字提示詞直接生成長達 6 分 20 秒、結構連貫的高品質音樂軌;Small 模型則可生成 最長 2 分鐘的音軌。 多元音訊工作流: 專門推出了針對短音效合成的 SFX 版本。此外,該版本完整 支援 LoRA 微調訓練文檔,並具備強大的音訊修補(Inpainting)與音訊延展( Extension)能力,允許音樂人將特定片段作為聲音參考進行續寫或局部的音色修改。中 型模型大小僅約 10 GB,能輕鬆塞進主流消費級 GPU 的顯示記憶體中。 22. FashionChameleon:實時影片虛擬試穿技術 技術定位: 阿里巴巴開發的突破性實時影片動態虛擬試穿(Virtual Try-On)系統 。 核心技術: 傳統影片試穿需要極其龐大且高昂的「模特兒穿著特定服裝」影片數據 集進行訓練。FashionChameleon 採用了免訓練的「鍵值快取重新調度(KV Cache Rescheduling)」技巧,配合情境學習(In-Context Learning)與知識蒸餾。 主要特點: 該技術僅需利用單件衣服的靜態或簡單影片數據,就能在生成影片時實 時動態替換服裝。影片中的模特兒在進行轉身、擺動等大幅度連續肢體動作時,其人體形 體與運動軌跡能保持完美穩定,而衣服的皺褶、材質與光影則會在對應的時間點精準貼合 並置換。最驚人的是其運行效率:在單張 GPU 上即可達到將近每秒 24 幀(24 FPS)的 接近實時生成速度,比現有的技術基準快了 30 到 180 倍,為直播電商與數位時尚產業 帶來巨大的商用潛力(官方計劃開源程式碼與權重)。 -- Gemini3.5整理 變強有感 影片版controlnet覺得有點潛力 AI版NPC直接拿影片模型做的話豈不是不需要真的做遊戲了 就看以後能做多複雜 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.237.148 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1779597678.A.D4A.html