Quali modelli di immagini accettano davvero 6 input di riferimento? Abbiamo eseguito il benchmark.

I moderni modelli di immagini possono accettare più immagini di riferimento più un prompt di testo e comporli in un singolo output. Un prompt, N riferimenti, un composito. Utile per visual novel, materiale di brand con personaggi coerenti, mockup di prodotti, pannelli di fumetti e qualsiasi flusso di lavoro che necessita di una scena assemblata da parti note.

Il problema: ogni modello nel mercato afferma di farlo. La maggior parte non lo fa. Alcuni si limitano a 1 riferimento, alcuni a 4, alcuni accettano gli input ma ignorano silenziosamente tutto dopo il primo. E in più lo stesso modello si comporta diversamente tra rivenditori a causa di quote, varianti di slug e cablaggio di endpoint mancante. Quindi abbiamo eseguito un benchmark.

Il set di fixture

Sei JPEG fissi che coprono una tipica composizione di scena roleplay: uno sfondo di taverna e cinque ritratti di personaggi (uno lato utente e quattro NPC). Stessi sei file per ogni coppia (provider, modello), nessuna riscrittura per canale. Payload totale circa 500 KB attraverso le sei immagini.

Il prompt di testo è anche fisso. Nomina ogni personaggio, fa riferimento a ogni immagine per indice e chiede un singolo composito. Testualmente:

text

Compose a single anime-style illustration combining the six reference images: place Sara, the blonde girl with the side braid (image 01), inside the tavern (image 00), interacting with four NPCs - the blonde male hero Trevor (image 02), the bearded ranger Puck (image 03), the bald knight in gold armor (image 04), and the brunette adventurer woman (image 05). Preserve each character's distinctive appearance. Single output image.

Come funziona il benchmark

Per ogni coppia (provider, modello) nel catalogo: POST delle sei fixture più il prompt al /v1/images/edits di quel canale. Pass = HTTP 200 con URL di immagine non vuoto o payload base64 nella risposta. Fail = non-200, corpo vuoto o forma non corrispondente. Nessuna valutazione umana. Il benchmark è riproducibile, viene eseguito su richiesta e viene rieseguito ogni volta che un nuovo modello di immagine appare upstream.

Non valutiamo la qualità visiva qui. Questa esecuzione risponde a una sola domanda: il modello accetta sei input di riferimento più un prompt e restituisce un'immagine, su questo canale specifico, in questo momento? La valutazione della qualità è un passaggio separato.

Cosa hanno rivelato 332 esecuzioni di canale

Attraverso 8 rivenditori upstream, abbiamo testato 136 modelli di immagini unici su 332 esecuzioni di canale. 54 modelli hanno almeno un provider verificato che passa. Esecuzione catturata 2026-05-09.

Raggruppato per famiglia. Modelli verificati = SKU distinti in quella famiglia con almeno un canale che passa. Somma di provider che passano = conteggio totale di coppie (modello, provider) che hanno restituito 200 attraverso la famiglia.

Famiglia	Modelli verificati	Somma di provider che passano
gpt-image-*	6	26
gemini-*-image	3	22
doubao-seedream-*	3	6
flux-*	7	8
qwen-image-edit-*	2	5
wan2.5-i2i	1	2

Migliori vincitori di singolo modello per conteggio di provider che passano. Più provider che passano significa migliore margine di routing: quando un upstream limita la tariffa o cade, il router ha un altro percorso allo stesso modello.

Modello	Provider che passano
gemini-3.1-flash-image-preview	8
gpt-image-1	7
gemini-3-pro-image-preview	7
gemini-2.5-flash-image	7
gpt-image-2	6
gpt-image-1-mini	4
gpt-image-1.5	4
flux-schnell	3
qwen-image-edit-plus	3

Perché un modello passa su un rivenditore e fallisce su un altro

Tre ragioni comuni. Esaurimento della quota: la chiave upstream del rivenditore ha bruciato la sua quota di immagini per la giornata e ora risponde 429. Varianti di slug: lo stesso modello sottostante è esposto come gpt-image-2, gpt-image-2-all, gpt-image-2-c e gpt-image-2-vip attraverso diversi rivenditori, e solo alcuni di questi slug sono effettivamente cablati a un backend funzionante. Mismatch di endpoint: alcuni rivenditori espongono lo slug ma non hanno mai collegato /v1/images/edits, quindi la richiesta dà 404.

Ecco perché testiamo continuamente e instradiamo attorno ai canali in fallimento al momento della richiesta. Un modello che passa oggi può iniziare a dare 429 domani se l'upstream del suo rivenditore ruota. Le liste di disponibilità statiche diventano obsolete velocemente in questo angolo del mercato.

maxImageInputs è ora nei metadati di ogni modello

Ogni modello di immagine nel catalogo ora porta un campo maxImageInputs sul suo blocco di metadati. I modelli che hanno superato il benchmark a 6 riferimenti sono taggati maxImageInputs: 6. La stessa forma è usata dall'UI del catalogo, dall'API e dal livello di routing.

json

{
  "model": "gemini-3.1-flash-image-preview",
  "metadata": {
    "maxImageInputs": 6
  }
}

Se ti interessa solo quali modelli accetteranno il tuo payload di 6 immagini, filtra su questo campo. I nuovi modelli aggiunti in seguito ottengono lo stesso tag una volta che passano lo stesso benchmark.

Provalo

Ogni modello sopra è disponibile attraverso un endpoint compatibile con OpenAI. L'editing di immagini multi-riferimento è esposto esattamente come l'upstream lo definisce, senza wrapping extra. Porta sei immagini e un prompt; il router sceglie un provider funzionante.

Prendi una chiave API o sfoglia il catalogo di immagini per vedere la lista completa verificata.