作者error405 (流河=L)
看板AI_Art
標題Re: [閒聊] GPT-5.5 資安測試與 Claude Mythos 幾
時間Sat May 16 13:25:50 2026
擊敗 Mythos:微軟發表 AI 資安代理系統 MDASH,漏洞研究進入多代理時代
https://techorange.com/2026/05/14/microsoft-adash-ai-security-mythos/
微軟公開自家MDASH多模型代理式AI安全系統,發現Windows軟體16個漏洞
https://www.ithome.com.tw/news/175805
Microsoft 的 MDASH(Multi-Model Agentic Scanning Harness,多模型代理掃描架構)
在資安漏洞發現能力上,在主要基準測試中超越了 Anthropic 的 Claude Mythos
Preview 和 OpenAI 的 GPT-5.5。
MDASH 是什麼?
全名:Microsoft Security multi-model agentic scanning harness(內部代號 MDASH)。
核心特色:不是單一 AI 模型,而是多代理(multi-agent)系統,協調超過 100 個專門
化 AI 代理(使用 frontier models + distilled/smaller models 的組合)。
運作流程:分析程式碼、建立威脅模型與攻擊面。
「審計代理」(auditor agents)掃描潛在漏洞。
「辯論代理」(debater agents)驗證發現是否真實且可利用。
去重、產生 Proof-of-Concept(PoC)攻擊來確認。
這讓它在端到端漏洞發現與驗證上更強大,而非僅靠單一模型生成程式碼或建議。
開發團隊:Microsoft Autonomous Code Security(ACS)團隊,與 Windows Attack
Research and Protection 團隊合作。部分成員來自贏得 DARPA AI Cyber Challenge
的 Team Atlanta。
實際成果
發現 16 個 Windows 新漏洞(包含 4 個 Critical RCE),
已在最近的 Patch Tuesday 更新中修復。例如:Windows kernel TCP/IP stack。
IKEv2 服務等。
已在 Microsoft 內部安全工程團隊使用,並有限私人預覽給部分客戶。
在私有 Windows driver 測試環境中,找出全部 21 個故意植入的漏洞,且零誤報。
基準測試表現(CyberGym)
CyberGym 是 UC Berkeley 開發的基準,包含 1,507 個真實
世界漏洞重現任務(來自 188 個 OSS-Fuzz 專案)。它測試 AI 是否能產生可觸發漏洞
的工作攻擊。
MDASH:88.45%(目前排行榜第一)。
Claude Mythos Preview:83.1%。
GPT-5.5:81.8% 左右。
MDASH 作為多模型代理系統,明顯優於單模型方法。這是 Microsoft 回應 AI 漏洞掃描
能力快速進步的舉措(Mythos 和 GPT-5.5 本身在資安任務上已有大幅躍進)。
背景脈絡:Claude Mythos 與 GPT-5.5
Claude Mythos Preview(Anthropic,2026年4月
左右發布):專注於複雜程式碼庫、資安與自主代理任務。能力強到 Anthropic 限制公
開存取(Project Glasswing),用於負責任夥伴。它在多步驟資安任務上表現突出,但
仍是單模型。
GPT-5.5(OpenAI,2026年4月發布):前沿模型,在編碼、推理與資安任務上有強大表現
,同樣是單模型,在基準上略遜 Mythos 或接近。
這些單模型在自主資安能力上已遠超先前趨勢(任務完成時間從數月縮短到數週/小時)
,但 MDASH 的多代理架構在實際漏洞狩獵基準上更勝一籌。
總結與意義
Microsoft 的 MDASH 代表資安防禦從「單模型掃描」轉向「代理團隊協作」
的趨勢。它不只在基準上領先,還已產生實質成果(幫助修補真實 Windows 漏洞)。這
顯示 AI 在資安領域的軍備競賽正加速:攻擊端(Mythos/GPT-5.5 等找零日)與防禦端
(MDASH 等大規模掃描)都在快速進化。
--
以上grok整理
微軟搞了個多agent系統接別人家的模型下去跑 資安能力分數直接變成第一
因為自己不出模型 只要別人一更新微軟就可以拿來用
..太卑鄙了 簡直就胖虎 你的都是我的= =
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.215.248 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1778909156.A.087.html
推 qiaffvvf: 他們倒是好好把東西修一修啊,不要整天bug送到家.. 05/16 13:32
推 homer0403: 自己驗自己還能吹成這樣? 攻別人的防火牆才準吧 05/17 06:01
→ patvessel: claude把自己吹的多神多猛 但是其實也是代理人流程上的 05/19 10:29
→ patvessel: 差異 05/19 10:29
→ patvessel: 真的接api裸測出的包也沒比別人少 05/19 10:29
推 Chricey: 哇勒,UC2 這個東西真的是太讚了 05/19 10:29