Publicado
Engenharia

Quais modelos de imagem realmente aceitam 6 entradas de referência? Rodamos o benchmark.

Muitos modelos de imagem anunciam edição multi-referência, mas a disponibilidade entre revendedores varia enormemente. Enviamos um prompt fixo de composição de cena com 6 imagens para todo canal de imagens do nosso catálogo. 332 execuções de canal, 136 modelos únicos, 54 com pelo menos um provedor verificado aprovado.

·3 min de leitura·Por Equipe UnoRouter
engenhariaanúncio

Modelos de imagem modernos podem aceitar várias imagens de referência mais um prompt de texto e compô-los em uma saída única. Um prompt, N referências, uma composição. Útil para novelas visuais, material de marca com personagens consistentes, mockups de produto, painéis de quadrinhos, e qualquer fluxo que precise de uma cena montada a partir de partes conhecidas.

A pegadinha: todo modelo do mercado afirma fazer isso. A maioria não. Alguns limitam a 1 referência, alguns a 4, alguns aceitam as entradas mas ignoram silenciosamente tudo após a primeira. E ainda por cima o mesmo modelo se comporta diferente entre revendedores por causa de cotas, variantes de slug e cabeamento de endpoint faltando. Então rodamos um benchmark.

O conjunto de fixtures

Seis JPEGs fixos cobrindo uma composição típica de cena de roleplay: um fundo de taverna e cinco retratos de personagens (um do lado do usuário e quatro NPCs). Os mesmos seis arquivos para todo par (provedor, modelo), sem reescrita por canal. Carga total de aproximadamente 500 KB nas seis imagens.

O prompt de texto também é fixo. Nomeia cada personagem, referencia cada imagem por índice e pede uma composição única. Literalmente:

text
Compose a single anime-style illustration combining the six reference images: place Sara, the blonde girl with the side braid (image 01), inside the tavern (image 00), interacting with four NPCs - the blonde male hero Trevor (image 02), the bearded ranger Puck (image 03), the bald knight in gold armor (image 04), and the brunette adventurer woman (image 05). Preserve each character's distinctive appearance. Single output image.

Como o benchmark roda

Para todo par (provedor, modelo) do catálogo: POST das seis fixtures mais o prompt para o /v1/images/edits daquele canal. Passa = HTTP 200 com URL de imagem não vazia ou carga base64 na resposta. Falha = não-200, corpo vazio, ou formato incompatível. Sem avaliação humana. O benchmark é reproduzível, roda sob demanda, e roda novamente sempre que um novo modelo de imagem aparece upstream.

Não pontuamos qualidade visual aqui. Esta execução responde apenas uma pergunta: o modelo aceita seis entradas de referência mais um prompt e retorna uma imagem, neste canal específico, agora? Avaliação de qualidade é um passo separado.

O que 332 execuções de canal revelaram

Em 8 revendedores upstream, testamos 136 modelos de imagem únicos em 332 execuções de canal. 54 modelos têm pelo menos um provedor verificado aprovado. Execução capturada em 2026-05-09.

Agrupado por família. Modelos verificados = SKUs distintos naquela família com pelo menos um canal aprovado. Soma de provedores aprovados = contagem total de pares (modelo, provedor) que retornaram 200 na família.

FamíliaModelos verificadosSoma de provedores aprovados
gpt-image-*626
gemini-*-image322
doubao-seedream-*36
flux-*78
qwen-image-edit-*25
wan2.5-i2i12

Melhores vencedores de modelo único por contagem de provedores aprovados. Mais provedores aprovados significa melhor margem de roteamento: quando um upstream limita a taxa ou cai, o roteador tem outro caminho para o mesmo modelo.

ModeloProvedores aprovados
gemini-3.1-flash-image-preview8
gpt-image-17
gemini-3-pro-image-preview7
gemini-2.5-flash-image7
gpt-image-26
gpt-image-1-mini4
gpt-image-1.54
flux-schnell3
qwen-image-edit-plus3

Por que um modelo passa em um revendedor e falha em outro

Três razões comuns. Cota esgotada: a chave upstream do revendedor queimou sua cota de imagem do dia e agora responde 429. Variantes de slug: o mesmo modelo subjacente é exposto como gpt-image-2, gpt-image-2-all, gpt-image-2-c e gpt-image-2-vip entre diferentes revendedores, e apenas alguns desses slugs estão de fato conectados a um backend funcional. Endpoint incompatível: alguns revendedores expõem o slug mas nunca conectaram /v1/images/edits, então a solicitação dá 404.

Por isso testamos continuamente e roteamos em torno de canais com falha no momento da solicitação. Um modelo que passa hoje pode começar a dar 429 amanhã se o upstream do seu revendedor girar. Listas estáticas de disponibilidade envelhecem rapidamente neste canto do mercado.

maxImageInputs agora está nos metadados de todo modelo

Todo modelo de imagem do catálogo agora carrega um campo maxImageInputs no seu bloco de metadados. Modelos que passaram no benchmark de 6 referências são marcados com maxImageInputs: 6. O mesmo formato é usado pela UI do catálogo, pela API e pela camada de roteamento.

json
{
  "model": "gemini-3.1-flash-image-preview",
  "metadata": {
    "maxImageInputs": 6
  }
}

Se você só se importa com quais modelos aceitarão sua carga de 6 imagens, filtre por este campo. Novos modelos adicionados depois recebem a mesma tag assim que passam no mesmo benchmark.

Experimente

Todo modelo acima está disponível através de um endpoint compatível com OpenAI. Edição de imagem multi-referência é exposta exatamente como o upstream a define, sem envolvimento extra. Traga seis imagens e um prompt; o roteador escolhe um provedor funcional.

Pegue uma chave API ou explore o catálogo de imagens para ver a lista completa verificada.

Postagens relacionadas
Quais modelos de imagem realmente aceitam 6 entradas de referência? Rodamos o benchmark. | UnoRouter