看板 AI_Art
https://www.youtube.com/watch?v=-D7o3E0eBf4
這部影片整理了當週多項重量級的 AI 技術與新聞,內容涵蓋大型語言模型、影片生成、 機器人以及實用的工具。以下是根據資訊欄時間軸所做的簡要重點整理: 核心語言模型與編碼器 Claude Opus 4.6 (06:13):Anthropic 推出的最強模型,在知識工作、代理式搜尋 和視覺推理(Arc AGI 2)上表現極佳,在多個排行榜上名列前茅,但運行速度較慢且成 本最高。 GPT 5.3 Codex (09:34):OpenAI 專為編碼設計的代理模型,具備「遞歸自我改進」 能力(開發團隊用早期版本來輔助開發自身)。在編碼基準測試中超越 Opus 4.6,能快 速生成遊戲或 PowerPoint 簡報。 StepFun 3.5 Flash (12:39):高效能的中型開源模型,在深度推理和科學研究上可 媲美頂級閉源模型,且生成速度極快。 Qwen3 Coder Next (24:20):阿里巴巴推出的開源編碼代理,體積雖小(80B)但效 率極高,在處理複雜編碼任務時表現穩定。 多模態與視覺處理 GLM OCR (01:17):強大的光學字元識別模型,能精準解析圖像中的文字、表格、公 式甚至手寫字跡,效能超越許多付費模型且可本地運行。 MiniCPM o4.5 (16:18):全能型(Omnimodal)模型,支援語音、影像、視訊輸入。 它可以像真人一樣進行語音對話,甚至模仿特定名人的聲音(如 Elon Musk)。 PaperBanana (32:05):Google 研發的 AI,專為學術論文設計,能自動根據數據生 成精確且美觀的圖表與插圖。 影片編輯與生成技術 Interactavatar (03:30):騰訊推出的技術,能讓 AI 人物根據指令與物體互動(如 拿起桌上的耳機),而不僅僅是說話。 Context Forcing (30:27):顯著提升影片生成的一致性,能產出比以往長 2 到 10 倍且背景、人物不變形的長影片。 Omnimatte Zero (35:51):能精準移除影片中的特定物體(包含倒影與陰影),或將 物體分離出來更換背景。 EditYourself (43:04):強大的影片編輯工具,能修改人物說話的內容,甚至移除口 吃,並自動調整對嘴(Lip-sync)使其看起來極為自然。 機器人與 3D 技術 SkinTokens (21:13):能自動為 3D 模型估算骨架(Rigging),讓非人類角色(如 蛇、螃蟹)也能快速進行動畫製作。 Husky 與 Unitree 冬季挑戰 (27:59, 29:38):展示了 UniTree G1 機器人在極端環 境(-47°C)下的耐力,以及學會滑滑板並在不穩定表面保持平衡的能力。 3DiMo (38:00):不僅能將動作轉移到新角色,還能同時控制相機視角(如縮放或環 繞拍攝)。 此外,影片中也提到了專門用於科學研究的 Intern S1 Pro (22:25),以及 ByteDance 推出的快速影片生成器 FSVideo (34:34)。這週的新聞顯示 AI 正從單純的文字處理,快 速擴展到更複雜的物理互動、精準影片編輯與專業科學領域。 -- Gemini3整理 居然沒提到開源音樂的ace-step 1.5 https://www.youtube.com/watch?v=QzddQoCKKss
有demo可以玩 https://huggingface.co/spaces/ACE-Step/Ace-Step-v1.5 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.214.5 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1770523544.A.0C3.html
potatotato: ACE Step 1.5 用起來感覺比HeartMuLa 聽話許多 02/08 14:18
error405: https://i.meee.com.tw/kBZCCZS.png 據說各方面都贏 02/08 14:21
AoWsL: Claude Opus 4.6 聽說是4.5六倍消耗..夭壽 02/08 14:42
AoWsL: http://i.imgur.com/R4cFpD4.jpg 02/08 16:45
avans: 推介紹! 02/08 17:29
Chricey: 5樓關節跟X一樣 02/08 17:29