Quels modèles d'image acceptent vraiment 6 images de référence ? Nous avons lancé le benchmark.

Les modèles d'image récents prennent plusieurs images de référence plus un prompt texte et les composent en une seule sortie. Un prompt, N références, une composition. Utile pour les visual novels, les supports de marque avec personnages cohérents, les maquettes produit, les planches de comic et tout flux qui doit assembler une scène à partir d'éléments connus.

Le piège : presque tous les modèles du marché prétendent savoir faire ça. La plupart ne savent pas. Certains plafonnent à 1 référence, d'autres à 4, certains acceptent les entrées et ignorent silencieusement tout ce qui dépasse la première. Et par-dessus, le même modèle se comporte différemment selon le revendeur, à cause des quotas, des variantes de slug et du câblage manquant d'endpoint. Donc nous avons construit un benchmark.

Le jeu de fixtures

Six JPEG fixes couvrant une composition de scène roleplay typique : un fond de taverne et cinq portraits de personnages (un côté utilisateur, quatre PNJ). Les mêmes six fichiers pour chaque couple (fournisseur, modèle), sans réécriture par canal. Charge totale environ 500 Ko sur les six images.

Le prompt texte est fixe lui aussi. Il nomme chaque personnage, référence chaque image par son index et demande une composition unique. Tel quel :

text

Compose a single anime-style illustration combining the six reference images: place Sara, the blonde girl with the side braid (image 01), inside the tavern (image 00), interacting with four NPCs - the blonde male hero Trevor (image 02), the bearded ranger Puck (image 03), the bald knight in gold armor (image 04), and the brunette adventurer woman (image 05). Preserve each character's distinctive appearance. Single output image.

Comment tourne le benchmark

Pour chaque couple (fournisseur, modèle) du catalogue : POST des six fixtures plus du prompt sur le /v1/images/edits du canal. Pass = HTTP 200 avec une URL d'image non vide ou un payload base64 dans la réponse. Échec = non-200, corps vide ou shape incorrecte. Aucune notation humaine. Le benchmark est reproductible, se relance à la demande et se réexécute dès qu'un nouveau modèle d'image apparaît côté upstream.

Nous n'évaluons pas la qualité visuelle ici. Cette exécution répond à une seule question : le modèle accepte-t-il six images de référence plus un prompt et renvoie-t-il une image, sur ce canal précis, maintenant ? La notation de qualité est une passe à part.

Ce que 332 exécutions ont donné

À travers 8 revendeurs upstream, nous avons testé 136 modèles d'image uniques sur 332 exécutions de canaux. 54 modèles ont au moins un fournisseur vérifié qui passe. Capture du 2026-05-09.

Regroupés par famille. Modèles vérifiés = SKU distincts de la famille avec au moins un canal qui passe. Somme des fournisseurs qui passent = nombre total de couples (modèle, fournisseur) qui ont renvoyé 200 dans la famille.

Famille	Modèles vérifiés	Somme des fournisseurs qui passent
gpt-image-*	6	26
gemini-*-image	3	22
doubao-seedream-*	3	6
flux-*	7	8
qwen-image-edit-*	2	5
wan2.5-i2i	1	2

Meilleurs modèles individuels par nombre de fournisseurs qui passent. Plus de fournisseurs valides veut dire plus de marge de routage : si un upstream limite ou tombe, le routeur a un autre chemin vers le même modèle.

Modèle	Fournisseurs qui passent
gemini-3.1-flash-image-preview	8
gpt-image-1	7
gemini-3-pro-image-preview	7
gemini-2.5-flash-image	7
gpt-image-2	6
gpt-image-1-mini	4
gpt-image-1.5	4
flux-schnell	3
qwen-image-edit-plus	3

Pourquoi un modèle passe chez un revendeur et échoue chez un autre

Trois raisons fréquentes. Quota épuisé : la clé upstream du revendeur a brûlé son quota d'images pour la journée et répond maintenant 429. Variantes de slug : le même modèle de fond apparaît chez différents revendeurs sous gpt-image-2, gpt-image-2-all, gpt-image-2-c et gpt-image-2-vip, mais seuls certains de ces slugs sont vraiment câblés à un backend fonctionnel. Endpoint manquant : certains revendeurs exposent le slug mais n'ont jamais branché /v1/images/edits, donc la requête renvoie 404.

C'est exactement pour ça que nous testons en continu et écartons les canaux en échec au moment de la requête. Un modèle qui passe aujourd'hui peut commencer à 429 demain si l'upstream du revendeur change. Les listes statiques de disponibilité périment vite dans ce coin du marché.

maxImageInputs est maintenant sur chaque modèle

Chaque modèle d'image du catalogue porte désormais un champ maxImageInputs dans son bloc metadata. Les modèles qui ont passé le benchmark à 6 références portent maxImageInputs: 6. Le même shape est utilisé par l'UI du catalogue, l'API et la couche de routage.

json

{
  "model": "gemini-3.1-flash-image-preview",
  "metadata": {
    "maxImageInputs": 6
  }
}

Si vous voulez seulement savoir quels modèles accepteront votre charge de 6 images, filtrez sur ce champ. Les nouveaux modèles reçoivent le même tag dès qu'ils passent le même benchmark.

Essayer

Tous les modèles ci-dessus sont accessibles via un seul endpoint compatible OpenAI. L'édition d'image multi-références est exposée exactement comme l'upstream la définit, sans emballage supplémentaire. Apportez six images et un prompt, le routeur choisit un fournisseur qui passe.

Obtenez une clé API ou parcourez le catalogue d'images pour voir la liste complète vérifiée.