¿Qué modelos de imagen realmente aceptan 6 entradas de referencia? Ejecutamos el benchmark.

Los modelos de imagen modernos pueden tomar múltiples imágenes de referencia más un prompt de texto y componerlos en una sola salida. Un prompt, N referencias, una composición. Útil para novelas visuales, material de marca con personajes consistentes, maquetas de productos, paneles de cómic y cualquier flujo que necesite ensamblar una escena desde partes conocidas.

El truco: cada modelo del mercado afirma hacer esto. La mayoría no. Algunos limitan a 1 referencia, algunos a 4, algunos aceptan las entradas pero ignoran silenciosamente todo después de la primera. Además, el mismo modelo se comporta diferente entre revendedores por cuotas, variantes de slug y cableado de endpoint faltante. Así que ejecutamos un benchmark.

El conjunto de fixtures

Seis JPEG fijos cubriendo una composición típica de escena de roleplay: un fondo de taberna y cinco retratos de personajes (uno del lado del usuario y cuatro NPCs). Los mismos seis archivos para cada par (proveedor, modelo), sin reescritura por canal. Carga total de aproximadamente 500 KB entre las seis imágenes.

El prompt de texto también es fijo. Nombra cada personaje, referencia cada imagen por índice y pide una sola composición. Textualmente:

text

Compose a single anime-style illustration combining the six reference images: place Sara, the blonde girl with the side braid (image 01), inside the tavern (image 00), interacting with four NPCs - the blonde male hero Trevor (image 02), the bearded ranger Puck (image 03), the bald knight in gold armor (image 04), and the brunette adventurer woman (image 05). Preserve each character's distinctive appearance. Single output image.

Cómo se ejecuta el benchmark

Para cada par (proveedor, modelo) del catálogo: POST de los seis fixtures más el prompt al /v1/images/edits de ese canal. Pasa = HTTP 200 con una URL de imagen no vacía o carga base64 en la respuesta. Falla = no-200, cuerpo vacío o forma incorrecta. Sin calificación humana. El benchmark es reproducible, se ejecuta bajo demanda y se vuelve a ejecutar cada vez que aparece un nuevo modelo de imagen upstream.

Aquí no calificamos calidad visual. Esta ejecución responde solo una pregunta: ¿el modelo acepta seis entradas de referencia más un prompt y devuelve una imagen, en este canal específico, ahora mismo? La calificación de calidad es un pase separado.

Qué reveló 332 ejecuciones de canal

A través de 8 revendedores upstream, probamos 136 modelos de imagen únicos sobre 332 ejecuciones de canal. 54 modelos tienen al menos un proveedor verificado que pasa. Ejecución capturada el 2026-05-09.

Agrupado por familia. Modelos verificados = SKUs distintos en esa familia con al menos un canal que pasa. Suma de proveedores que pasan = recuento total de pares (modelo, proveedor) que devolvieron 200 en la familia.

Familia	Modelos verificados	Suma de proveedores que pasan
gpt-image-*	6	26
gemini-*-image	3	22
doubao-seedream-*	3	6
flux-*	7	8
qwen-image-edit-*	2	5
wan2.5-i2i	1	2

Mejores ganadores de modelo único por recuento de proveedores que pasan. Más proveedores que pasan significa mejor margen de enrutamiento: cuando un upstream limita la tasa o cae, el router tiene otro camino al mismo modelo.

Modelo	Proveedores que pasan
gemini-3.1-flash-image-preview	8
gpt-image-1	7
gemini-3-pro-image-preview	7
gemini-2.5-flash-image	7
gpt-image-2	6
gpt-image-1-mini	4
gpt-image-1.5	4
flux-schnell	3
qwen-image-edit-plus	3

Por qué un modelo pasa en un revendedor y falla en otro

Tres razones comunes. Cuota agotada: la clave upstream del revendedor quemó su cuota de imagen del día y ahora responde 429. Variantes de slug: el mismo modelo subyacente se expone como gpt-image-2, gpt-image-2-all, gpt-image-2-c y gpt-image-2-vip entre diferentes revendedores, y solo algunos de esos slugs están realmente conectados a un backend funcional. Endpoint no coincide: algunos revendedores exponen el slug pero nunca cablearon /v1/images/edits, así que la solicitud da 404.

Por eso probamos continuamente y enrutamos alrededor de los canales que fallan en el momento de la solicitud. Un modelo que pasa hoy puede empezar a dar 429 mañana si rota el upstream de su revendedor. Las listas estáticas de disponibilidad envejecen rápido en este rincón del mercado.

maxImageInputs ahora está en los metadatos de cada modelo

Cada modelo de imagen del catálogo ahora lleva un campo maxImageInputs en su bloque de metadatos. Los modelos que pasaron el benchmark de 6 referencias están etiquetados con maxImageInputs: 6. La misma forma la usa la UI del catálogo, la API y la capa de enrutamiento.

json

{
  "model": "gemini-3.1-flash-image-preview",
  "metadata": {
    "maxImageInputs": 6
  }
}

Si solo te importa qué modelos aceptarán tu carga de 6 imágenes, filtra por este campo. Los nuevos modelos añadidos más tarde reciben la misma etiqueta una vez que pasan el mismo benchmark.

Pruébalo

Cada modelo arriba está disponible a través de un endpoint compatible con OpenAI. La edición de imágenes multi-referencia se expone exactamente como el upstream la define, sin wrapping extra. Trae seis imágenes y un prompt; el router elige un proveedor funcional.

Obtén una clave API o explora el catálogo de imágenes para ver la lista completa verificada.