作者trfmk1 (TRF小兵)
看板AI_Art
標題[分享] ComfyUI AMD RX9070XT專用便攜包分享
時間Tue May 12 22:19:01 2026
ComfyUI AMD RX9070XT專用便攜包分享
ComfyUI_Win_portable_RX9070 TRFv0.1-Lite
https://drive.google.com/file/d/1jfJGjwdQbyGjjcvP1KA7jhkMRHY3CUoD/view?usp=sharing
這是我自己折騰出來的版本
第一次在這裡分享
只針對AMD RX9070XT做優化
我個人能力有限
出問題我建議問AI
將ComfyUI報錯的代碼複製給AI
可能會比在網路上問題來的快
此版本沒有模型沒有裝ROCm
算是一個大版本更新
建議備份好原本的環境再來轉移
第一次執行請點擊
Update ROCm.bat
https://i.imgur.com/14D4Xi6.png
選擇 6. 多架構 ROCm 與 PyTorch (gfx1201)
安裝ROCm
或者選擇4也可以
多架構版本將原本家族包細分
硬碟佔用空間大幅降低
https://i.imgur.com/L75iSao.png
便攜包更新的軌跡
https://forum.gamer.com.tw/C.php?bsn=60030&snA=679332&page=1&gothis=2543422#2543
新手最好裡面的文章都看過一次
壓縮檔解壓請放在硬碟根目錄
不要有中文還是太多英文字數
讓PowerShell支援超過 260 個字元的長路徑
最快的方法是以系統管理員身分執行 PowerShell
輸入
New-ItemProperty -Path "HKLM:\SYSTEM\CurrentControlSet\Control\FileSystem"
-Name "LongPathsEnabled" -Value 1 -PropertyType DWORD -Force
第一次使用的人這兩個工具必裝
Visual C++ Runtime Library
https://aka.ms/vs/17/release/vc_redist.x64.exe
Visual Studio Build Tools
https://aka.ms/vs/17/release/vs_BuildTools.exe
使用triton-windows必須用到C++工具編譯
需要的模型我直接放雲端了
https://drive.google.com/drive/folders/1A9YgUdtGQiTltQTz-kJxdR6A323ihS6Y?usp=sharing
除了WAN2.2的模型
實在太大了...麻煩自行取得
點擊Start.bat啟動
新手不懂全部選擇1就好了
Mimalloc 系統記憶體分配管理我更新到V3版本
會強制預分配系統記憶體給ComfyUI
你會看到記憶體佔用變高
Start.bat用記事本編輯可以調整裡面參數
https://i.imgur.com/LvcQMzq.png
set MIMALLOC_LARGE_OS_PAGES=1
要正常使用必須開啟大分頁模式(Large OS Pages)
如何開啟參考巴哈的文章
記憶體調整下面的數字
set MIMALLOC_PURGE_DELAY=1000
32G 250
64G 500
128G 1000
如果覺得系統記憶體太吃重
也能改回之前的版本
參考我之前的文章
或者巴哈的文章
此版本ComfyUI更新到最新版本
Python version: 3.13.11
ComfyUI version: 0.21.0
SageAttention 1 Triton
我又調整了一些代碼
基於Triton 3.6
針對RDNA4架構優化
Start.bat裡面可以調整變數
https://i.imgur.com/nBOngTg.png
REM SageAttention Optimization for RX 9070 XT
REM ==================================================
set SAGEATTN_QK_DTYPE=FP8
set SAGEATTN_M=128
set SAGEATTN_N=16
set SAGEATTN_GM=16
set SAGEATTN_WAVE=6
set SAGEATTN_WARP=4
set SAGEATTN_NSTAGES=1
set SAGEATTN_CAUSAL_STAGE=3
set SAGEATTN_QK_DTYPE=
這一個變數可以調整選擇FP8或INT8
Q矩陣跟K矩陣的量化模式
可以用INT8或FP8模式去跑
9070XT用FP8去跑效率會高一些
但FP8的精度會比INT8少一些
如果有遇到出圖錯誤
可以切換回INT8試試
因為當初開發SageAttention時
N卡的環境還沒有支援FP8
在量化方面才使用INT8
我利用Gemini魔改後
打通了SageAttention在RDNA4的FP8矩陣加速
效率會比INT8版本高一些
另外SageAttention2.2支援RDNA4的版本
我也在測試中了
Flash_attn-2.8.4 RDNA4 CK(Composable Kernel 後端)
我也編譯進去了
但CK內核版本很麻煩
效能比較高但編譯時間超級久
我是在torch2.11下編譯的
如果更新到torch2.13就會不能使用這點要注意
等ROCm正式更新到torch2.12我才會花時間編譯
我自己內建ComfyUI工作流我全部重新整理過
使用子圖的功能讓界面清爽一些
我自己弄的工作流這裡可以抓到
https://drive.google.com/drive/folders/1702lhEUIYAp5B9x8nl81J3wLHytecOWi?usp=sharing
都是很基礎的工作流
但我用Gemini協助寫了一些簡單節點來用
直接要用可能要自己調整
我增加了Ernie Image Turbo工作流
與Z-image-turbo+Ernie Image Turbo混合工作流
ERNIE是百度的開源模型
對於真人生圖的細節非常不錯
但生成的人物美感不如Z-image-turbo
姿勢單調還容易跑出大餅臉
所以我自己弄了一個工作流
先跑Z-image-turbo創造底模
再使用Ernie Image Turbo重繪補細節
模型推薦 红潮 | ERNIE RedMIX
https://civitai.red/models/958009/redcraft-or-or-ernie-redmix?modelVersionId=2891710
Moody Real Mix
https://civitai.com/models/621441/moody-real-mix?modelVersionId=2922447
Z-image-turbo跑6步
https://i.imgur.com/eE7UMIZ.png
Ernie Image Turbo跑10步(其實跑8步也行)
https://i.imgur.com/h8l8lKn.jpeg
使用AI校色+AI超分
一些出圖分享
https://i.imgur.com/xi9huq9.jpeg
https://i.imgur.com/OWcVfda.jpeg
https://i.imgur.com/M0PcT7C.jpeg
https://i.imgur.com/n9VykJQ.jpeg
https://i.imgur.com/cmwVRpL.jpeg
https://i.imgur.com/s0vaI2D.jpeg
https://i.imgur.com/pXewDAg.png
https://i.imgur.com/mjULeDM.png
https://i.imgur.com/Aq1LxqI.jpeg
我還有編譯llama_cpp_python套件forAMD版本
可以使用本地的模型做圖片反推或者協助你寫提示詞
https://i.imgur.com/pq7hW3U.png
在models裡面創一個LLM資料夾
把LLM模型放進去就好了
要如何使用自行去摸索吧
B站現在也有人開始教AMD顯卡跑ComfyUI的教學
不懂可以去看看
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.229.59.186 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1778595543.A.524.html
※ 編輯: trfmk1 (125.229.59.186 臺灣), 05/12/2026 22:24:26
推 error405: 推美女 05/12 22:45
推 v86861062: 推推 05/12 23:08
推 rex7788: 不明覺厲,能分享一下電腦配置和跑一張圖的大小、步數和 05/13 00:25
→ rex7788: 時間嗎。好奇a卡不用rocm能跑多快 05/13 00:25
以下皆Win11下跑
https://i.imgur.com/w6uNLbM.png
Z-image-turbo文生圖
1024X1024 6步差不多5s
https://i.imgur.com/RtvsVXo.png
Wan 2.2
480*832 5秒 4步
Liunx下更快
https://i.imgur.com/tuOHHVD.png
https://i.imgur.com/VSE9tO0.png
Wan 2.2
720*1280 5秒 4步
https://i.imgur.com/orels9i.png
SDXL
1024*1024 25步
推 jhjhs33504: 如果是影片生成後截圖效率會不會比較高? 05/13 01:05
推 Kroner: 吃過關節保健品,都沒什麼效果,有推薦的牌子嗎? 05/13 01:05※ 編輯: trfmk1 (125.229.59.186 臺灣), 05/13/2026 01:28:04
→ rex7788: 謝分享,你優化的速度好快,不過電腦設備那張截圖有點糊 05/13 10:00
→ rex7788: 看不出來顯卡資訊 05/13 10:00
顯卡就AMD RX9070XT
→ ganei: 那個是M$系統字型問題,我這邊也是長那個鳥樣,放GPU-Z可能 05/13 11:17
→ ganei: 會比較清楚一點,但就看不到系統記憶體分配情況了 05/13 11:17
推 Chricey: 看到關節痛,我就想起我姨媽 05/13 11:17※ 編輯: trfmk1 (125.229.59.186 臺灣), 05/13/2026 11:34:35
→ rex7788: 謝謝你的分享,你這便攜包是有效的交個作業。不過可能還 05/13 23:08
→ rex7788: 有些設定不太合,大概需要自己調整,我也一窺了其他人的 05/13 23:08
→ rex7788: 生圖居然是這麼多複雜節點和精美介面的 05/13 23:08
推 Kroner: 哇勒,UC2 這個東西真的是太讚了 05/13 23:08→ rex7788: 我自己搞的幾乎都是官方預設節點根本沒幾個 05/13 23:10
推 Tosca: Z image會擋住第三點QQ 05/14 08:57
要瑟瑟去找其他人訓練的ZIT模型
推 stlinman: 圖跟折騰(工作流+軟體包)好厲害! 05/14 14:11
→ stlinman: 不過看很多Z-image-turbo LORA 都是預設9步,我是習慣跑 05/14 14:14
推 Kroner: 剛開始吃UC2,期待 05/14 14:14→ stlinman: 8~10步感覺Z-image-turbo已經很快了! 多1~2步收斂效果比 05/14 14:14
→ stlinman: 好。 05/14 14:15
※ 編輯: trfmk1 (125.229.59.186 臺灣), 05/14/2026 22:25:42