Quali modelli di immagini accettano davvero 6 input di riferimento? Abbiamo eseguito il benchmark.
Molti modelli di immagini pubblicizzano editing multi-riferimento, ma la disponibilità tra rivenditori varia enormemente. Abbiamo inviato un prompt fisso di composizione di scena con 6 immagini a ogni canale di immagini nel nostro catalogo. 332 esecuzioni di canale, 136 modelli unici, 54 con almeno un provider verificato che passa.
I moderni modelli di immagini possono accettare più immagini di riferimento più un prompt di testo e comporli in un singolo output. Un prompt, N riferimenti, un composito. Utile per visual novel, materiale di brand con personaggi coerenti, mockup di prodotti, pannelli di fumetti e qualsiasi flusso di lavoro che necessita di una scena assemblata da parti note.
Il problema: ogni modello nel mercato afferma di farlo. La maggior parte non lo fa. Alcuni si limitano a 1 riferimento, alcuni a 4, alcuni accettano gli input ma ignorano silenziosamente tutto dopo il primo. E in più lo stesso modello si comporta diversamente tra rivenditori a causa di quote, varianti di slug e cablaggio di endpoint mancante. Quindi abbiamo eseguito un benchmark.
Il set di fixture
Sei JPEG fissi che coprono una tipica composizione di scena roleplay: uno sfondo di taverna e cinque ritratti di personaggi (uno lato utente e quattro NPC). Stessi sei file per ogni coppia (provider, modello), nessuna riscrittura per canale. Payload totale circa 500 KB attraverso le sei immagini.
Il prompt di testo è anche fisso. Nomina ogni personaggio, fa riferimento a ogni immagine per indice e chiede un singolo composito. Testualmente:
Compose a single anime-style illustration combining the six reference images: place Sara, the blonde girl with the side braid (image 01), inside the tavern (image 00), interacting with four NPCs - the blonde male hero Trevor (image 02), the bearded ranger Puck (image 03), the bald knight in gold armor (image 04), and the brunette adventurer woman (image 05). Preserve each character's distinctive appearance. Single output image.Come funziona il benchmark
Per ogni coppia (provider, modello) nel catalogo: POST delle sei fixture più il prompt al /v1/images/edits di quel canale. Pass = HTTP 200 con URL di immagine non vuoto o payload base64 nella risposta. Fail = non-200, corpo vuoto o forma non corrispondente. Nessuna valutazione umana. Il benchmark è riproducibile, viene eseguito su richiesta e viene rieseguito ogni volta che un nuovo modello di immagine appare upstream.
Non valutiamo la qualità visiva qui. Questa esecuzione risponde a una sola domanda: il modello accetta sei input di riferimento più un prompt e restituisce un'immagine, su questo canale specifico, in questo momento? La valutazione della qualità è un passaggio separato.
Cosa hanno rivelato 332 esecuzioni di canale
Attraverso 8 rivenditori upstream, abbiamo testato 136 modelli di immagini unici su 332 esecuzioni di canale. 54 modelli hanno almeno un provider verificato che passa. Esecuzione catturata 2026-05-09.
Raggruppato per famiglia. Modelli verificati = SKU distinti in quella famiglia con almeno un canale che passa. Somma di provider che passano = conteggio totale di coppie (modello, provider) che hanno restituito 200 attraverso la famiglia.
| Famiglia | Modelli verificati | Somma di provider che passano |
|---|---|---|
| gpt-image-* | 6 | 26 |
| gemini-*-image | 3 | 22 |
| doubao-seedream-* | 3 | 6 |
| flux-* | 7 | 8 |
| qwen-image-edit-* | 2 | 5 |
| wan2.5-i2i | 1 | 2 |
Migliori vincitori di singolo modello per conteggio di provider che passano. Più provider che passano significa migliore margine di routing: quando un upstream limita la tariffa o cade, il router ha un altro percorso allo stesso modello.
| Modello | Provider che passano |
|---|---|
| gemini-3.1-flash-image-preview | 8 |
| gpt-image-1 | 7 |
| gemini-3-pro-image-preview | 7 |
| gemini-2.5-flash-image | 7 |
| gpt-image-2 | 6 |
| gpt-image-1-mini | 4 |
| gpt-image-1.5 | 4 |
| flux-schnell | 3 |
| qwen-image-edit-plus | 3 |
Perché un modello passa su un rivenditore e fallisce su un altro
Tre ragioni comuni. Esaurimento della quota: la chiave upstream del rivenditore ha bruciato la sua quota di immagini per la giornata e ora risponde 429. Varianti di slug: lo stesso modello sottostante è esposto come gpt-image-2, gpt-image-2-all, gpt-image-2-c e gpt-image-2-vip attraverso diversi rivenditori, e solo alcuni di questi slug sono effettivamente cablati a un backend funzionante. Mismatch di endpoint: alcuni rivenditori espongono lo slug ma non hanno mai collegato /v1/images/edits, quindi la richiesta dà 404.
Ecco perché testiamo continuamente e instradiamo attorno ai canali in fallimento al momento della richiesta. Un modello che passa oggi può iniziare a dare 429 domani se l'upstream del suo rivenditore ruota. Le liste di disponibilità statiche diventano obsolete velocemente in questo angolo del mercato.
maxImageInputs è ora nei metadati di ogni modello
Ogni modello di immagine nel catalogo ora porta un campo maxImageInputs sul suo blocco di metadati. I modelli che hanno superato il benchmark a 6 riferimenti sono taggati maxImageInputs: 6. La stessa forma è usata dall'UI del catalogo, dall'API e dal livello di routing.
{
"model": "gemini-3.1-flash-image-preview",
"metadata": {
"maxImageInputs": 6
}
}Se ti interessa solo quali modelli accetteranno il tuo payload di 6 immagini, filtra su questo campo. I nuovi modelli aggiunti in seguito ottengono lo stesso tag una volta che passano lo stesso benchmark.
Provalo
Ogni modello sopra è disponibile attraverso un endpoint compatibile con OpenAI. L'editing di immagini multi-riferimento è esposto esattamente come l'upstream lo definisce, senza wrapping extra. Porta sei immagini e un prompt; il router sceglie un provider funzionante.
Prendi una chiave API o sfoglia il catalogo di immagini per vedere la lista completa verificata.
In due giorni abbiamo collegato 15 provider gratuiti a UnoRouter: 134 modelli gratuiti elencati, un unico endpoint OpenAI-compatible, $0 per token. Sono gratuiti per un motivo e portano con se limiti di frequenza che non possiamo aumentare. Ecco la versione onesta.
Collega il tuo account per $1, boosta il server per $1 ogni mese, caccia bug fino a $50. Abbiamo appena aperto il Discord di UnoRouter.
Abbiamo sondato 8 rivenditori popolari di Claude per 17 giorni. 183 dei loro canali non erano Claude affatto. La maggior parte erano Kiro Cascade o Codeium con un'etichetta Claude. Nomi, numeri e lo script che abbiamo usato così puoi testare il tuo provider.