Re: [閒聊] GPT-5.5 資安測試與 Claude Mythos 幾

作者error405 (流河=L)

看板AI_Art

標題Re: [閒聊] GPT-5.5 資安測試與 Claude Mythos 幾

時間Sat May 16 13:25:50 2026

擊敗 Mythos：微軟發表 AI 資安代理系統 MDASH，漏洞研究進入多代理時代 https://techorange.com/2026/05/14/microsoft-adash-ai-security-mythos/ 微軟公開自家MDASH多模型代理式AI安全系統，發現Windows軟體16個漏洞 https://www.ithome.com.tw/news/175805 Microsoft 的 MDASH（Multi-Model Agentic Scanning Harness，多模型代理掃描架構）在資安漏洞發現能力上，在主要基準測試中超越了 Anthropic 的 Claude Mythos Preview 和 OpenAI 的 GPT-5.5。 MDASH 是什麼？全名：Microsoft Security multi-model agentic scanning harness（內部代號 MDASH）。核心特色：不是單一 AI 模型，而是多代理（multi-agent）系統，協調超過 100 個專門化 AI 代理（使用 frontier models + distilled/smaller models 的組合）。運作流程：分析程式碼、建立威脅模型與攻擊面。「審計代理」（auditor agents）掃描潛在漏洞。「辯論代理」（debater agents）驗證發現是否真實且可利用。去重、產生 Proof-of-Concept（PoC）攻擊來確認。這讓它在端到端漏洞發現與驗證上更強大，而非僅靠單一模型生成程式碼或建議。開發團隊：Microsoft Autonomous Code Security（ACS）團隊，與 Windows Attack Research and Protection 團隊合作。部分成員來自贏得 DARPA AI Cyber Challenge 的 Team Atlanta。實際成果發現 16 個 Windows 新漏洞（包含 4 個 Critical RCE），已在最近的 Patch Tuesday 更新中修復。例如：Windows kernel TCP/IP stack。 IKEv2 服務等。已在 Microsoft 內部安全工程團隊使用，並有限私人預覽給部分客戶。在私有 Windows driver 測試環境中，找出全部 21 個故意植入的漏洞，且零誤報。基準測試表現（CyberGym） CyberGym 是 UC Berkeley 開發的基準，包含 1,507 個真實世界漏洞重現任務（來自 188 個 OSS-Fuzz 專案）。它測試 AI 是否能產生可觸發漏洞的工作攻擊。 MDASH：88.45%（目前排行榜第一）。 Claude Mythos Preview：83.1%。 GPT-5.5：81.8% 左右。 MDASH 作為多模型代理系統，明顯優於單模型方法。這是 Microsoft 回應 AI 漏洞掃描能力快速進步的舉措（Mythos 和 GPT-5.5 本身在資安任務上已有大幅躍進）。背景脈絡：Claude Mythos 與 GPT-5.5 Claude Mythos Preview（Anthropic，2026年4月左右發布）：專注於複雜程式碼庫、資安與自主代理任務。能力強到 Anthropic 限制公開存取（Project Glasswing），用於負責任夥伴。它在多步驟資安任務上表現突出，但仍是單模型。 GPT-5.5（OpenAI，2026年4月發布）：前沿模型，在編碼、推理與資安任務上有強大表現，同樣是單模型，在基準上略遜 Mythos 或接近。這些單模型在自主資安能力上已遠超先前趨勢（任務完成時間從數月縮短到數週/小時），但 MDASH 的多代理架構在實際漏洞狩獵基準上更勝一籌。總結與意義 Microsoft 的 MDASH 代表資安防禦從「單模型掃描」轉向「代理團隊協作」的趨勢。它不只在基準上領先，還已產生實質成果（幫助修補真實 Windows 漏洞）。這顯示 AI 在資安領域的軍備競賽正加速：攻擊端（Mythos/GPT-5.5 等找零日）與防禦端（MDASH 等大規模掃描）都在快速進化。 -- 以上grok整理微軟搞了個多agent系統接別人家的模型下去跑資安能力分數直接變成第一因為自己不出模型只要別人一更新微軟就可以拿來用 ..太卑鄙了簡直就胖虎你的都是我的= = -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.215.248 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1778909156.A.087.html

推 qiaffvvf: 他們倒是好好把東西修一修啊，不要整天bug送到家.. 05/16 13:32

推 homer0403: 自己驗自己還能吹成這樣? 攻別人的防火牆才準吧 05/17 06:01

→ patvessel: claude把自己吹的多神多猛但是其實也是代理人流程上的 05/19 10:29

→ patvessel: 差異 05/19 10:29

→ patvessel: 真的接api裸測出的包也沒比別人少 05/19 10:29

推 Chricey: 哇勒，UC2 這個東西真的是太讚了 05/19 10:29