看板 AI_Art
擊敗 Mythos:微軟發表 AI 資安代理系統 MDASH,漏洞研究進入多代理時代 https://techorange.com/2026/05/14/microsoft-adash-ai-security-mythos/ 微軟公開自家MDASH多模型代理式AI安全系統,發現Windows軟體16個漏洞 https://www.ithome.com.tw/news/175805 Microsoft 的 MDASH(Multi-Model Agentic Scanning Harness,多模型代理掃描架構) 在資安漏洞發現能力上,在主要基準測試中超越了 Anthropic 的 Claude Mythos Preview 和 OpenAI 的 GPT-5.5。 MDASH 是什麼? 全名:Microsoft Security multi-model agentic scanning harness(內部代號 MDASH)。 核心特色:不是單一 AI 模型,而是多代理(multi-agent)系統,協調超過 100 個專門 化 AI 代理(使用 frontier models + distilled/smaller models 的組合)。 運作流程:分析程式碼、建立威脅模型與攻擊面。 「審計代理」(auditor agents)掃描潛在漏洞。 「辯論代理」(debater agents)驗證發現是否真實且可利用。 去重、產生 Proof-of-Concept(PoC)攻擊來確認。 這讓它在端到端漏洞發現與驗證上更強大,而非僅靠單一模型生成程式碼或建議。 開發團隊:Microsoft Autonomous Code Security(ACS)團隊,與 Windows Attack Research and Protection 團隊合作。部分成員來自贏得 DARPA AI Cyber Challenge 的 Team Atlanta。 實際成果 發現 16 個 Windows 新漏洞(包含 4 個 Critical RCE), 已在最近的 Patch Tuesday 更新中修復。例如:Windows kernel TCP/IP stack。 IKEv2 服務等。 已在 Microsoft 內部安全工程團隊使用,並有限私人預覽給部分客戶。 在私有 Windows driver 測試環境中,找出全部 21 個故意植入的漏洞,且零誤報。 基準測試表現(CyberGym) CyberGym 是 UC Berkeley 開發的基準,包含 1,507 個真實 世界漏洞重現任務(來自 188 個 OSS-Fuzz 專案)。它測試 AI 是否能產生可觸發漏洞 的工作攻擊。 MDASH:88.45%(目前排行榜第一)。 Claude Mythos Preview:83.1%。 GPT-5.5:81.8% 左右。 MDASH 作為多模型代理系統,明顯優於單模型方法。這是 Microsoft 回應 AI 漏洞掃描 能力快速進步的舉措(Mythos 和 GPT-5.5 本身在資安任務上已有大幅躍進)。 背景脈絡:Claude Mythos 與 GPT-5.5 Claude Mythos Preview(Anthropic,2026年4月 左右發布):專注於複雜程式碼庫、資安與自主代理任務。能力強到 Anthropic 限制公 開存取(Project Glasswing),用於負責任夥伴。它在多步驟資安任務上表現突出,但 仍是單模型。 GPT-5.5(OpenAI,2026年4月發布):前沿模型,在編碼、推理與資安任務上有強大表現 ,同樣是單模型,在基準上略遜 Mythos 或接近。 這些單模型在自主資安能力上已遠超先前趨勢(任務完成時間從數月縮短到數週/小時) ,但 MDASH 的多代理架構在實際漏洞狩獵基準上更勝一籌。 總結與意義 Microsoft 的 MDASH 代表資安防禦從「單模型掃描」轉向「代理團隊協作」 的趨勢。它不只在基準上領先,還已產生實質成果(幫助修補真實 Windows 漏洞)。這 顯示 AI 在資安領域的軍備競賽正加速:攻擊端(Mythos/GPT-5.5 等找零日)與防禦端 (MDASH 等大規模掃描)都在快速進化。 -- 以上grok整理 微軟搞了個多agent系統接別人家的模型下去跑 資安能力分數直接變成第一 因為自己不出模型 只要別人一更新微軟就可以拿來用 ..太卑鄙了 簡直就胖虎 你的都是我的= = -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.215.248 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1778909156.A.087.html
qiaffvvf: 他們倒是好好把東西修一修啊,不要整天bug送到家.. 05/16 13:32
homer0403: 自己驗自己還能吹成這樣? 攻別人的防火牆才準吧 05/17 06:01
patvessel: claude把自己吹的多神多猛 但是其實也是代理人流程上的 05/19 10:29
patvessel: 差異 05/19 10:29
patvessel: 真的接api裸測出的包也沒比別人少 05/19 10:29
Chricey: 哇勒,UC2 這個東西真的是太讚了 05/19 10:29