Które modele obrazów faktycznie przyjmują 6 wejść referencyjnych? Uruchomiliśmy benchmark.

Nowoczesne modele obrazów potrafią przyjąć wiele obrazów referencyjnych plus jeden prompt tekstowy i skomponować je w jedno wyjście. Jeden prompt, N referencji, jeden kompozyt. Przydatne dla visual novels, materiałów brandowych ze spójnymi postaciami, mockupów produktów, paneli komiksowych i każdego przepływu, który potrzebuje sceny złożonej ze znanych części.

Haczyk: każdy model na rynku twierdzi, że to robi. Większość nie. Niektóre limitują do 1 referencji, niektóre do 4, niektóre przyjmują wejścia, ale po cichu ignorują wszystko po pierwszym. A na dodatek ten sam model zachowuje się różnie u różnych odsprzedawców z powodu kwot, wariantów slugów i brakujących podłączeń endpointów. Więc uruchomiliśmy benchmark.

Zestaw fixture

Sześć stałych JPEGów pokrywających typową kompozycję sceny roleplay: jedno tło tawerny i pięć portretów postaci (jeden po stronie użytkownika i czterech NPC). Te same sześć plików dla każdej pary (dostawca, model), bez przepisywania per kanał. Całkowity payload około 500 KB w sześciu obrazach.

Prompt tekstowy też jest stały. Nazywa każdą postać, odwołuje się do każdego obrazu po indeksie i prosi o pojedynczy kompozyt. Dosłownie:

text

Compose a single anime-style illustration combining the six reference images: place Sara, the blonde girl with the side braid (image 01), inside the tavern (image 00), interacting with four NPCs - the blonde male hero Trevor (image 02), the bearded ranger Puck (image 03), the bald knight in gold armor (image 04), and the brunette adventurer woman (image 05). Preserve each character's distinctive appearance. Single output image.

Jak działa benchmark

Dla każdej pary (dostawca, model) w katalogu: POST sześciu fixture plus prompt do /v1/images/edits tego kanału. Zaliczenie = HTTP 200 z niepustym URL obrazu lub payloadem base64 w odpowiedzi. Porażka = nie-200, pusty body lub niezgodność kształtu. Brak oceny ludzkiej. Benchmark jest powtarzalny, uruchamia się na żądanie i uruchamia ponownie za każdym razem, gdy pojawi się nowy model obrazu w upstream.

Nie oceniamy tutaj jakości wizualnej. To uruchomienie odpowiada tylko na jedno pytanie: czy model przyjmuje sześć wejść referencyjnych plus prompt i zwraca obraz, na tym konkretnym kanale, teraz? Ocena jakości to oddzielny przebieg.

Co wykazało 332 uruchomienia kanałów

U 8 odsprzedawców upstream, przetestowaliśmy 136 unikalnych modeli obrazów w 332 uruchomieniach kanałów. 54 modele mają co najmniej jednego zweryfikowanego dostawcę, który przeszedł. Uruchomienie z 2026-05-09.

Pogrupowane według rodziny. Zweryfikowane modele = odrębne SKU w tej rodzinie z co najmniej jednym przechodzącym kanałem. Suma przechodzących dostawców = całkowita liczba par (model, dostawca), które zwróciły 200 w rodzinie.

Rodzina	Zweryfikowane modele	Suma przechodzących dostawców
gpt-image-*	6	26
gemini-*-image	3	22
doubao-seedream-*	3	6
flux-*	7	8
qwen-image-edit-*	2	5
wan2.5-i2i	1	2

Najlepsi zwycięzcy pojedynczych modeli według liczby przechodzących dostawców. Więcej przechodzących dostawców oznacza lepszy zapas routingu: gdy jeden upstream limituje lub pada, router ma inną ścieżkę do tego samego modelu.

Model	Przechodzący dostawcy
gemini-3.1-flash-image-preview	8
gpt-image-1	7
gemini-3-pro-image-preview	7
gemini-2.5-flash-image	7
gpt-image-2	6
gpt-image-1-mini	4
gpt-image-1.5	4
flux-schnell	3
qwen-image-edit-plus	3

Dlaczego model przechodzi u jednego odsprzedawcy, a pada u innego

Trzy częste powody. Wyczerpanie kwoty: klucz upstream odsprzedawcy spalił dzienną kwotę obrazów i teraz odpowiada 429. Warianty slugów: ten sam podstawowy model jest wystawiany jako gpt-image-2, gpt-image-2-all, gpt-image-2-c i gpt-image-2-vip u różnych odsprzedawców, a tylko niektóre z tych slugów są faktycznie podłączone do działającego backendu. Niedopasowanie endpointu: kilku odsprzedawców wystawia slug, ale nigdy nie podpięli /v1/images/edits, więc zapytanie zwraca 404.

Dlatego testujemy ciągle i routujemy wokół padających kanałów w czasie zapytania. Model, który dziś przechodzi, może zacząć zwracać 429 jutro, jeśli upstream odsprzedawcy się zrotuje. Statyczne listy dostępności szybko się dezaktualizują w tym kącie rynku.

maxImageInputs jest teraz w metadanych każdego modelu

Każdy model obrazu w katalogu nosi teraz pole maxImageInputs w swoim bloku metadanych. Modele, które przeszły benchmark 6 referencji, są oznaczone maxImageInputs: 6. Ten sam kształt jest używany przez UI katalogu, API i warstwę routingu.

json

{
  "model": "gemini-3.1-flash-image-preview",
  "metadata": {
    "maxImageInputs": 6
  }
}

Jeśli zależy ci tylko na tym, które modele przyjmą twój payload 6 obrazów, filtruj po tym polu. Nowe modele dodane później dostają ten sam tag, gdy przejdą ten sam benchmark.

Wypróbuj

Każdy powyższy model jest dostępny przez jeden endpoint kompatybilny z OpenAI. Edycja obrazu multi-referencyjna jest wystawiana dokładnie tak, jak definiuje to upstream, bez dodatkowego owijania. Przynieś sześć obrazów i prompt; router wybierze działającego dostawcę.

Pobierz klucz API lub przeglądaj katalog obrazów, aby zobaczyć pełną zweryfikowaną listę.