Welche Bildmodelle akzeptieren wirklich 6 Referenz-Inputs? Wir haben den Benchmark laufen lassen.
Viele Bildmodelle werben mit Multi-Referenz-Editing, aber die Verfügbarkeit über die Reseller hinweg schwankt stark. Wir haben einen festen 6-Bild-Szenenkompositions-Prompt an jeden Bild-Channel unseres Katalogs geschickt. 332 Channel-Läufe, 136 einzelne Modelle, 54 mit mindestens einem verifiziert funktionierenden Provider.
Moderne Bildmodelle nehmen mehrere Referenzbilder plus einen Text-Prompt entgegen und setzen daraus ein einziges Ergebnis zusammen. Ein Prompt, N Referenzen, eine Komposition. Nützlich für Visual Novels, Markenmaterial mit konsistenten Charakteren, Produkt-Mockups, Comic-Panels und jeden Workflow, der eine Szene aus bekannten Bestandteilen zusammensetzen muss.
Der Haken: Praktisch jedes Modell am Markt behauptet, das zu können. Die meisten tun es nicht. Manche begrenzen auf 1 Referenz, manche auf 4, manche akzeptieren die Eingaben und ignorieren still alles nach dem ersten Bild. Und obendrauf verhält sich dasselbe Modell bei verschiedenen Resellern unterschiedlich, wegen Quoten, Slug-Varianten und fehlender Endpoint-Verkabelung. Also haben wir einen Benchmark gebaut.
Das Fixture-Set
Sechs feste JPEGs, die eine typische Roleplay-Szenenkomposition abdecken: ein Taverne-Hintergrund und fünf Charakter-Porträts (einer auf User-Seite, vier NPCs). Dieselben sechs Dateien für jedes (Provider, Modell)-Paar, kein channel-spezifisches Umschreiben. Gesamtgröße rund 500 KB über die sechs Bilder.
Der Text-Prompt ist ebenfalls fix. Er benennt jeden Charakter, verweist auf jedes Bild über den Index und fordert eine einzige Komposition an. Wortwörtlich:
Compose a single anime-style illustration combining the six reference images: place Sara, the blonde girl with the side braid (image 01), inside the tavern (image 00), interacting with four NPCs - the blonde male hero Trevor (image 02), the bearded ranger Puck (image 03), the bald knight in gold armor (image 04), and the brunette adventurer woman (image 05). Preserve each character's distinctive appearance. Single output image.Wie der Benchmark läuft
Für jedes (Provider, Modell)-Paar im Katalog: POST der sechs Fixtures plus Prompt an /v1/images/edits des jeweiligen Channels. Pass = HTTP 200 mit einer nicht leeren Bild-URL oder einem Base64-Payload in der Antwort. Fail = nicht-200, leerer Body oder falsches Shape. Keine manuelle Bewertung. Der Benchmark ist reproduzierbar, läuft auf Knopfdruck und neu, sobald ein neues Bildmodell upstream auftaucht.
Wir bewerten hier keine visuelle Qualität. Dieser Lauf beantwortet genau eine Frage: Akzeptiert das Modell sechs Referenz-Inputs plus Prompt und liefert ein Bild zurück, auf genau diesem Channel, genau jetzt? Qualitätsbewertung ist ein eigener Durchgang.
Was 332 Channel-Läufe ergeben haben
Über 8 Upstream-Reseller haben wir 136 einzelne Bildmodelle in 332 Channel-Läufen getestet. 54 Modelle haben mindestens einen verifiziert funktionierenden Provider. Erfasst am 2026-05-09.
Gruppiert nach Familie. Verifizierte Modelle = verschiedene SKUs in dieser Familie mit mindestens einem Pass. Summe funktionierender Provider = Gesamtzahl der (Modell, Provider)-Paare, die in dieser Familie mit 200 geantwortet haben.
| Familie | Verifizierte Modelle | Summe funktionierender Provider |
|---|---|---|
| gpt-image-* | 6 | 26 |
| gemini-*-image | 3 | 22 |
| doubao-seedream-* | 3 | 6 |
| flux-* | 7 | 8 |
| qwen-image-edit-* | 2 | 5 |
| wan2.5-i2i | 1 | 2 |
Top-Einzelmodelle sortiert nach Anzahl funktionierender Provider. Mehr passende Provider bedeuten mehr Routing-Spielraum: wenn ein Upstream rate-limited oder ausfällt, hat der Router noch einen anderen Weg zum selben Modell.
| Modell | Passende Provider |
|---|---|
| gemini-3.1-flash-image-preview | 8 |
| gpt-image-1 | 7 |
| gemini-3-pro-image-preview | 7 |
| gemini-2.5-flash-image | 7 |
| gpt-image-2 | 6 |
| gpt-image-1-mini | 4 |
| gpt-image-1.5 | 4 |
| flux-schnell | 3 |
| qwen-image-edit-plus | 3 |
Warum ein Modell bei einem Reseller passt und bei einem anderen fällt
Drei häufige Gründe. Quota erschöpft: Der Upstream-Key des Resellers hat sein Bild-Kontingent für heute aufgebraucht und antwortet jetzt mit 429. Slug-Varianten: Dasselbe Modell taucht bei verschiedenen Resellern als gpt-image-2, gpt-image-2-all, gpt-image-2-c und gpt-image-2-vip auf, aber nur ein Teil dieser Slugs ist wirklich an ein funktionierendes Backend verkabelt. Endpoint-Mismatch: Einige Reseller listen den Slug, haben aber /v1/images/edits nie angeschlossen, also liefert der Request einen 404.
Genau deshalb testen wir laufend und routen Fail-Channels zur Request-Zeit aus. Ein Modell, das heute passt, kann morgen anfangen, 429 zu liefern, wenn der Upstream des Resellers wechselt. Statische Verfügbarkeitslisten veralten in dieser Ecke des Marktes schnell.
maxImageInputs liegt jetzt auf jedem Modell
Jedes Bildmodell im Katalog trägt jetzt das Feld maxImageInputs in seinem Metadata-Block. Modelle, die den 6-Referenz-Benchmark bestanden haben, tragen maxImageInputs: 6. Dieselbe Form wird vom Katalog-UI, von der API und vom Routing genutzt.
{
"model": "gemini-3.1-flash-image-preview",
"metadata": {
"maxImageInputs": 6
}
}Wer nur wissen will, welche Modelle einen 6-Bild-Payload akzeptieren, filtert auf dieses Feld. Neue Modelle bekommen denselben Tag, sobald sie denselben Benchmark bestehen.
Ausprobieren
Jedes Modell oben ist über einen OpenAI-kompatiblen Endpoint erreichbar. Multi-Referenz-Bild-Edit wird genau so durchgereicht, wie der Upstream es definiert, ohne Extra-Wrapping. Sechs Bilder plus Prompt mitbringen, der Router sucht einen funktionierenden Provider aus.
API-Key holen oder den Bildkatalog durchsehen, um die volle verifizierte Liste zu sehen.
Wir haben 8 beliebte Claude-Reseller 17 Tage lang sondiert. 183 ihrer Channels waren überhaupt kein Claude. Die meisten waren Kiro Cascade oder Codeium mit einem Claude-Namensschild. Namen, Zahlen und das Skript zum Selbstprüfen.

Cloudflare hat gerade einen Scanner veröffentlicht, der bewertet wie bereit deine Seite für KI-Agenten ist. Wir haben volle 100/100 und das höchste Level-5-Rating bekommen. Hier ist was er prüft und warum die meisten Seiten durchfallen.
Ausfälle im Wochentakt. Premium-Modelle heimlich gegen billige Klone getauscht. Irgendwann war Schluss, also haben wir unseren eigenen Router gebaut und ihn paranoid gemacht. Das ist die Launch-Story.