Yayınlandı
Mühendislik

Hangi görsel modelleri gerçekten 6 referans girdi alır? Benchmarki çalıştırdık.

Çok görsel modeli çoklu referans düzenleme reklamı yapar, ama satıcılar arasında kullanılabilirlik çılgınca değişir. Katalogumuzdaki her görsel kanalına sabit 6 görsellik bir sahne kompozisyon istemi gönderdik. 332 kanal çalıştırması, 136 benzersiz model, en az bir doğrulanmış geçen sağlayıcısı olan 54 model.

·3 dk okuma·UnoRouter ekibi tarafından
mühendislikduyuru

Modern görsel modelleri birden çok referans görsel artı bir metin istemi alıp tek bir çıktıda birleştirebilir. Bir istem, N referans, bir kompozit. Görsel roman, tutarlı karakterli marka materyali, ürün maketleri, çizgi roman panelleri ve bilinen parçalardan sahne kurulması gereken her iş akışı için kullanışlı.

Yakalama: pazardaki her model bunu yaptığını iddia eder. Çoğu yapmaz. Bazıları 1 referansta tıkanır, bazıları 4'te, bazıları girdileri kabul eder ama ilkinden sonrasını sessizce yok sayar. Üstelik aynı model satıcılar arasında kotalar, slug varyantları ve eksik endpoint bağlantısı nedeniyle farklı davranır. Bu yüzden bir benchmark çalıştırdık.

Fixture seti

Tipik bir roleplay sahne kompozisyonunu kapsayan altı sabit JPEG: bir tavern arka planı ve beş karakter portresi (bir kullanıcı tarafı ve dört NPC). Her (sağlayıcı, model) çifti için aynı altı dosya, kanal başına yeniden yazma yok. Toplam yük altı görsel boyunca yaklaşık 500 KB.

Metin istemi de sabittir. Her karakteri adlandırır, her görseli indekse göre referans verir ve tek bir kompozit ister. Aynen:

text
Compose a single anime-style illustration combining the six reference images: place Sara, the blonde girl with the side braid (image 01), inside the tavern (image 00), interacting with four NPCs - the blonde male hero Trevor (image 02), the bearded ranger Puck (image 03), the bald knight in gold armor (image 04), and the brunette adventurer woman (image 05). Preserve each character's distinctive appearance. Single output image.

Benchmark nasıl çalışır

Katalogdaki her (sağlayıcı, model) çifti için: altı fixture artı istemi o kanalın /v1/images/edits'ine POST. Geçti = yanıtta boş olmayan bir görsel URL veya base64 yüküyle HTTP 200. Başarısız = 200 olmayan, boş gövde veya şekil uyuşmazlığı. İnsan derecelendirmesi yok. Benchmark yeniden üretilebilir, talep üzerine çalışır ve upstream'de yeni bir görsel modeli göründüğünde yeniden çalışır.

Burada görsel kaliteyi puanlamıyoruz. Bu çalıştırma tek bir soruyu cevaplar: model bu spesifik kanalda şu anda altı referans girdi artı bir istemi kabul edip bir görsel döndürüyor mu? Kalite derecelendirmesi ayrı bir geçiştir.

332 kanal çalıştırması ne çıkardı

8 upstream satıcısı üzerinde 136 benzersiz görsel modelini 332 kanal çalıştırmasıile test ettik. 54 model'in en az bir doğrulanmış geçen sağlayıcısı var. Çalıştırma kaydı 2026-05-09.

Aileye göre gruplandı. Doğrulanmış modeller = o ailede en az bir geçen kanalı olan farklı SKU'lar. Geçen sağlayıcı toplamı = aile boyunca 200 döndüren (model, sağlayıcı) çiftlerinin toplam sayısı.

AileDoğrulanmış modellerGeçen sağlayıcı toplamı
gpt-image-*626
gemini-*-image322
doubao-seedream-*36
flux-*78
qwen-image-edit-*25
wan2.5-i2i12

Geçen sağlayıcı sayısına göre en iyi tek model kazananları. Daha çok geçen sağlayıcı daha iyi yönlendirme alanı demek: bir upstream hız sınırına ulaştığında veya çöktüğünde, router'ın aynı modele başka bir yolu vardır.

ModelGeçen sağlayıcılar
gemini-3.1-flash-image-preview8
gpt-image-17
gemini-3-pro-image-preview7
gemini-2.5-flash-image7
gpt-image-26
gpt-image-1-mini4
gpt-image-1.54
flux-schnell3
qwen-image-edit-plus3

Bir model neden bir satıcıda geçer ve başka birinde başarısız olur

Üç yaygın neden. Kota tükenmesi: satıcının upstream anahtarı günün görsel kotasını yaktı ve şimdi 429 ile yanıt veriyor. Slug varyantları: aynı temel model farklı satıcılarda gpt-image-2, gpt-image-2-all, gpt-image-2-c ve gpt-image-2-vip olarak sunulur ve o slug'ların sadece bazıları gerçekten çalışan bir backend'e bağlıdır. Endpoint uyuşmazlığı: birkaç satıcı slug'ı sunar ama /v1/images/edits'i hiç bağlamamıştır, böylece istek 404'ler.

Bu yüzden sürekli test ederiz ve istek zamanında başarısız kanallar etrafında yönlendiririz. Bugün geçen bir model, satıcının upstream'i dönerse yarın 429 vermeye başlayabilir. Statik kullanılabilirlik listeleri pazarın bu köşesinde hızlı bayatlar.

maxImageInputs artık her modelin metadata'sında

Katalogdaki her görsel modeli artık metadata bloğunda bir maxImageInputs alanı taşır. 6 referans benchmarkını geçen modeller maxImageInputs: 6 ile etiketlenir. Aynı şekil katalog UI'si, API ve yönlendirme katmanı tarafından kullanılır.

json
{
  "model": "gemini-3.1-flash-image-preview",
  "metadata": {
    "maxImageInputs": 6
  }
}

Sadece hangi modellerin 6 görsel yükünüzü kabul edeceği umurunuzdaysa, bu alana filtre uygulayın. Daha sonra eklenen yeni modeller aynı benchmarki geçtiklerinde aynı etiketi alır.

Deneyin

Yukarıdaki her model tek bir OpenAI uyumlu endpoint üzerinden kullanılabilir. Çoklu referans görsel düzenleme upstream'in tanımladığı gibi sunulur, fazladan sarma yok. Altı görsel ve bir istem getirin; router çalışan bir sağlayıcı seçer.

API anahtarı al veya görsel kataloğuna göz at tüm doğrulanmış listeyi gör.

İlgili yazılar
Hangi görsel modelleri gerçekten 6 referans girdi alır? Benchmarki çalıştırdık. | UnoRouter