到底哪些圖像模型真的能吃下 6 張參考圖?我們跑了基準測試。
很多圖像模型都宣稱支援多參考圖編輯,但不同經銷商的可用性差異極大。我們把一段固定的 6 圖場景合成 prompt 發給目錄裡的每一個圖像通道。332 次通道執行,136 個獨立模型,54 個至少有一個經過驗證的可用供應商。
新一代圖像模型可以接受多張參考圖加一段文字 prompt,把它們合成為一張輸出。一個 prompt、N 張參考、一張合成圖。對視覺小說、保持人物一致的品牌素材、產品 mockup、漫畫分鏡,以及任何要把已知素材拼成一個場景的工作流都很實用。
麻煩在於,市面上幾乎所有模型都說自己做得到。絕大多數其實做不到。有的卡在 1 張參考,有的卡在 4 張,有的接受輸入卻在第一張之後悄悄丟掉。再加上同一個模型在不同經銷商那邊行為又不一樣,原因是配額、slug 變體和未接好的 endpoint。所以我們乾脆做了一個基準測試。
fixture 套件
六張固定 JPEG,涵蓋一個典型的 RP 場景合成:一張酒館背景,再加五張人物頭像(一個使用者側,四個 NPC)。每一對(供應商、模型)都用同樣的六個檔案,不依通道改寫。六張圖合計大約 500 KB。
文字 prompt 也是固定的。它點名每個角色、按索引引用每張圖,並要求一張合成圖。原文照抄:
Compose a single anime-style illustration combining the six reference images: place Sara, the blonde girl with the side braid (image 01), inside the tavern (image 00), interacting with four NPCs - the blonde male hero Trevor (image 02), the bearded ranger Puck (image 03), the bald knight in gold armor (image 04), and the brunette adventurer woman (image 05). Preserve each character's distinctive appearance. Single output image.基準測試怎麼跑
對目錄裡每一對(供應商、模型):把六個 fixture 加 prompt POST 到該通道的 /v1/images/edits。通過 = HTTP 200,回應中有非空的圖像 URL 或 base64。失敗 = 非 200、空 body 或形狀不對。不做人工評分。基準可重現、可按需重跑,新圖像模型出現在上游就會自動再跑一次。
這裡不評圖像品質。這次跑只回答一個問題:這個模型,在這條具體通道、此時此刻,是否接受六張參考圖加 prompt,並回傳一張圖?品質評分是另外一輪。
332 次通道執行跑出了什麼
跨 8 家上游經銷商,我們在 332 次通道執行 裡測了 136 個獨立圖像模型。54 個模型 至少有一個經過驗證可用的供應商。快照時間 2026-05-09。
依家族彙整。已驗證模型 = 該家族裡至少有一個通過通道的不同 SKU 數量。通過供應商總數 = 該家族裡回傳 200 的 (模型, 供應商) 配對總數。
| 家族 | 已驗證模型 | 通過供應商總數 |
|---|---|---|
| gpt-image-* | 6 | 26 |
| gemini-*-image | 3 | 22 |
| doubao-seedream-* | 3 | 6 |
| flux-* | 7 | 8 |
| qwen-image-edit-* | 2 | 5 |
| wan2.5-i2i | 1 | 2 |
單模型榜首 依通過供應商數量排序。通過的供應商越多,路由餘裕越大:某個上游被限速或掛掉時,路由器還能走另一條路徑到同一個模型。
| 模型 | 通過供應商 |
|---|---|
| gemini-3.1-flash-image-preview | 8 |
| gpt-image-1 | 7 |
| gemini-3-pro-image-preview | 7 |
| gemini-2.5-flash-image | 7 |
| gpt-image-2 | 6 |
| gpt-image-1-mini | 4 |
| gpt-image-1.5 | 4 |
| flux-schnell | 3 |
| qwen-image-edit-plus | 3 |
為什麼同一個模型在一家通過、在另一家失敗
三種常見原因。配額耗盡:經銷商的上游 key 當日圖像額度燒完,現在回 429。slug 變體:同一個底層模型在不同經銷商那邊被暴露成 gpt-image-2、gpt-image-2-all、gpt-image-2-c 和 gpt-image-2-vip,但只有一部分 slug 真的接到能跑的後端。endpoint 對不上:有的經銷商列了 slug,但從沒接 /v1/images/edits,請求直接 404。
這就是為什麼我們持續測,並在請求當下直接繞開失敗通道。今天通過的模型,明天上游一換可能就開始 429。這塊市場裡的靜態可用性清單,過時得很快。
現在每個模型上都有 maxImageInputs
目錄裡每個圖像模型的 metadata 區塊現在都帶 maxImageInputs 欄位。通過 6 張參考圖基準的模型會被標為 maxImageInputs: 6。目錄 UI、API 和路由層共用同一份形狀。
{
"model": "gemini-3.1-flash-image-preview",
"metadata": {
"maxImageInputs": 6
}
}如果你只關心哪些模型能接 6 張圖的 payload,直接以這個欄位過濾。新模型只要過了同一套基準,就會自動拿到同一個 tag。
試試看
上面列出的模型都透過同一個 OpenAI 相容 endpoint 提供。多參考圖編輯按上游定義的樣子原樣暴露,沒有再包一層。帶上六張圖和一段 prompt,路由器會替你挑一個能跑的供應商。
我們對 8 家熱門 Claude 中轉商連續 probe 了 17 天,發現其中 183 個 channel 根本不是 Claude,大多是 Kiro Cascade 或 Codeium 套了個 Claude 的殼。點名、數據,以及讓你自己測自家 provider 的腳本。

Cloudflare 剛上線了一款掃描器,用來評估你的網站對 AI Agent 的就緒程度。我們拿到了滿分 100/100 和最高 Level 5。它到底在檢查什麼,以及為何大多數網站都過不了關。
三天兩頭當機,旗艦模型還被偷偷換成廉價仿品。忍無可忍,我們自己動手做了路由器,並且對這兩件事都偏執到極點。這就是上線故事。