本当に 6 枚の参照画像を受け取れる画像モデルはどれか。ベンチマークを走らせました。

最近の画像モデルは、複数の参照画像と 1 本のテキストプロンプトを受け取り、1 枚の出力にまとめられます。1 つのプロンプト、N 個の参照、1 枚の合成画像。ビジュアルノベル、キャラクター統一のブランドアセット、製品モックアップ、コミックのコマ割り、そして既知の素材から場面を組み立てる任意のワークフローで便利です。

落とし穴は、市場のほぼ全モデルが「できる」と謳う点です。実際にはほとんどできません。1 枚で打ち止めのもの、4 枚で打ち止めのもの、入力は受け取るが最初の 1 枚以外を黙って捨てるものもあります。さらに、同じモデルでもリセラーが違えば挙動が変わります。クォータ、スラッグの差異、エンドポイントの未配線が原因です。だからベンチマークを組みました。

フィクスチャ一式

典型的なロールプレイのシーン合成を網羅する 6 枚の固定 JPEG: 酒場の背景 1 枚と、ユーザー側 1 枚と NPC 4 枚のキャラクター肖像 5 枚。すべての (プロバイダ, モデル) ペアに同じ 6 ファイルを使い、チャネルごとに書き換えません。合計サイズは 6 枚で約 500 KB。

テキストプロンプトも固定です。各キャラクターを名指しし、各画像をインデックスで参照し、1 枚の合成画像を要求します。原文ママ:

text

Compose a single anime-style illustration combining the six reference images: place Sara, the blonde girl with the side braid (image 01), inside the tavern (image 00), interacting with four NPCs - the blonde male hero Trevor (image 02), the bearded ranger Puck (image 03), the bald knight in gold armor (image 04), and the brunette adventurer woman (image 05). Preserve each character's distinctive appearance. Single output image.

ベンチマークの動き方

カタログ内のすべての (プロバイダ, モデル) ペアに対して: 6 枚のフィクスチャとプロンプトを、そのチャネルの /v1/images/edits に POST します。合格 = HTTP 200 で、レスポンスに空でない画像 URL か base64 ペイロードがある。不合格 = 200 以外、空ボディ、または形状不一致。人間による採点はしません。ベンチマークは再現可能で、必要に応じて再実行し、新しい画像モデルが上流に出てきたら自動的に再走させます。

ここで視覚的品質は採点しません。この実行が答える問いはひとつだけです: このモデルは、まさにこのチャネルで、いま、6 枚の参照入力とプロンプトを受け取って画像を返すか? 品質採点は別のパスで行います。

332 回のチャネル実行でわかったこと

8 つの上流リセラーを横断して、136 のユニークな画像モデルを332 回のチャネル実行でテストしました。54 モデルに少なくとも 1 つの検証済み合格プロバイダがあります。実行日 2026-05-09。

ファミリー別の集計。検証済みモデル = そのファミリーで少なくとも 1 つの合格チャネルを持つ別個の SKU 数。合格プロバイダ総数 = ファミリー内で 200 を返した (モデル, プロバイダ) ペアの総数。

ファミリー	検証済みモデル	合格プロバイダ総数
gpt-image-*	6	26
gemini-*-image	3	22
doubao-seedream-*	3	6
flux-*	7	8
qwen-image-edit-*	2	5
wan2.5-i2i	1	2

単体モデルの上位を、合格プロバイダ数でソート。合格プロバイダが多いほどルーティングの余裕が増えます。ある上流がレート制限や障害に陥っても、ルーターは同じモデルへの別経路を持てます。

モデル	合格プロバイダ数
gemini-3.1-flash-image-preview	8
gpt-image-1	7
gemini-3-pro-image-preview	7
gemini-2.5-flash-image	7
gpt-image-2	6
gpt-image-1-mini	4
gpt-image-1.5	4
flux-schnell	3
qwen-image-edit-plus	3

あるリセラーでは通って別のリセラーで落ちる理由

よくある原因は 3 つ。クォータ枯渇: リセラーの上流キーがその日の画像クォータを使い切り、429 を返している。スラッグの差異: 同じ実体のモデルがリセラーごとに gpt-image-2、gpt-image-2-all、gpt-image-2-c、gpt-image-2-vip として並ぶが、実際に動くバックエンドへ配線されているスラッグは一部だけ。エンドポイント不一致: スラッグは公開しているのに /v1/images/edits に配線していないリセラーもあり、リクエストが 404 になります。

だからこそ継続的にテストし、リクエスト時に落ちているチャネルを避けて回します。今日通るモデルでも、明日リセラーの上流が切り替われば 429 を返し始めることがあります。静的な可用性リストは、この市場の片隅ではすぐに古くなります。

すべてのモデルのメタデータに maxImageInputs を載せました

カタログの全画像モデルが、メタデータブロックに maxImageInputs フィールドを持つようになりました。6 枚参照ベンチマークに合格したモデルには maxImageInputs: 6 が付きます。同じ形をカタログ UI、API、ルーティング層が共有して使います。

json

{
  "model": "gemini-3.1-flash-image-preview",
  "metadata": {
    "maxImageInputs": 6
  }
}

6 枚のペイロードを受け取れるモデルだけ知りたければ、このフィールドでフィルタしてください。新しいモデルも同じベンチマークを通過した時点で同じタグが付きます。

試す

上のモデルはすべて、ひとつの OpenAI 互換エンドポイントから使えます。マルチリファレンスの画像編集は、上流が定義したそのままの形で公開しており、追加のラッピングはありません。6 枚の画像とプロンプトを渡せば、ルーターが通るプロバイダを選びます。

API キーを取得、または画像カタログを見るで検証済みリスト全体を確認できます。