← BLOG22 de mayo de 2026

Cómo testear modelos de IA video con un proyecto real antes de adoptarlos

La brecha entre un demo y tu proyecto real es gigante. Acá te mostramos cómo validar Veo, Kling o Runway con un brief tuyo, medir usable-take rate y detectar dónde falla cada modelo.

Por qué el demo no es lo que funciona para tu proyecto

Te encuentras con un video generado por IA en la página de algún servicio de generación de imagen IA: se ve limpio, transiciones fluidas, iluminación consistente. Luego lo intentas con tu brief real y el resultado es un desastre. La diferencia no es magia, es que los demos están hechos con prompts optimizados, casos de uso ideales y probablemente post-procesamiento que no muestran.

Tu proyecto tiene restricciones reales: marca específica, paleta de color corporativo, movimientos de cámara definidos, talent u objetos que necesitan consistencia frame a frame. Eso hace que sea difícil conseguir el resultado que tiene el demo.

Ante esto hay dos caminos: adoptar la herramienta sin validarla (y descubrir el problema en medio del proyecto que estés realizando, con el costo y stress que conlleva), o testearla antes como corresponde. La segunda opción te ahorra presupuesto, evita sorpresas y te permite tomar una decisión informada sobre si esa IA te sirve en tu cadena de trabajo.

El método: tres prompts de tu briefing reciente

Toma el video de un proyecto que ya entregaste o para el que recibiste el brief en los últimos 30 días. No necesita ser complicado, elige algo que tenga:

Un elemento visual claro: producto con logo, rostro, landscape, movimiento de cámara específico.
Una restricción de marca: paleta de color, estilo visual, duración.
Un criterio de éxito: ¿qué tiene que pasar para que el resultado sea usable como primera versión o mockup?.

Ahora genera tres prompts a partir de ese brief:

Prompt 1: descriptivo limpio. Describe lo que que quieres ver sin pedir efectos. Ej: "Producto blanco sobre fondo gris, cámara dolly hacia la derecha, luz natural, 4 segundos."

Prompt 2: con restricción de estilo. Agrega limitaciones de tu marca. Ej: "Producto blanco sobre fondo gris, dolly derecha, luz natural, estilo minimalista corporativo, sin efectos visuales, 4 segundos."

Prompt 3: con movimiento específico. Detalla el movimiento como tal como lo necesits...o sueñas. Ej: "Producto blanco sobre fondo gris, cámara hace dolly hacia la derecha a velocidad constante mietras el zoom se va cerrando lentamente, luz natural desde arriba, sin movimiento del objeto, 4 segundos."

La idea es no traer prompts genéricos: son tuyos, basados en lo que realmente quieres entregar.

Testea en los tres modelos principales

Hoy el triángulo es Runway, Veo y Kling. En 6 meses habrá dos o tres más, pero el método sigue igual.

Genera los tres prompts en cada modelo. No hagas solo una generación, haz tres intentos en cada uno (la API te deja). Esto te da variabilidad real: no todos los renders de un mismo modelo son idénticos.

Guarda los resultados indicando la fecha y hora en que fueron realizados. Acá viene lo importante: no evalúes con el criterio "¿qué se ve mejor?" sino "¿cuánto trabajo me demanda?".

Mide "usable-take rate"

"Usable-take rate" es un concepto que viene del mundo de los intentos en set de filmación: de cada toma que haces, ¿cuántas son "buenas tomas" sin necesitar ajustarlas o corregirlas?. En IA es similar.

Para cada generación que obtengas, pregúntate:

¿Entra directo a post, o necesita limpieza en VFX? (ruido, artefactos, detalles que no cierran).
¿El movimiento es consistente, o hay frames donde el objeto "salta"?
¿La paleta de color respeta la restricción, o hay cambios inesperados?
¿El prompt se sostiene a lo largo de los 4 segundos, o se "desvía" en el medio?

Dale a cada uno una puntuación simple: Usable tal cual / Usable con retoque menor en post / No usable.

Contar cuántos outputs de cada modelo caen en "Usable" (ambas categorías) vs "No usable" es tu take rate. Si Veo te da 5 usables de 9 intentos (55%), Kling te da 6 de 9 (67%) y Runway te da 3 de 9 (33%), ya tienes datos.

Detecta dónde falla cada modelo

No todos fallan en el mismo lugar. Eso es lo valioso que descubrirás:

Veo mantiene coherencia en paleta pero a veces pierde movimiento de cámara fluido.
Kling sigue el prompt de movimiento bien pero genera luces inconsistentes.
Runway maneja logo/marca mejor pero necesita prompts muy precisos para no desviar.

Esta información, "Veo para este tipo de shot", "Kling para movimientos complejos", "Runway si la marca es es lo prioritario", es más valiosa que cualquier comparativa genérica. Es TU caso de uso, tu experiencia directa.

Aplica esto a tu cadena de trabajo

Una vez que tienes los datos, mapea dónde encaja cada modelo en tu flujo:

¿Primera pasada / mockup? Usa el modelo que te da mayor take rate sin importar calidad final.
¿Previsualización o animatic? Usa el que mejor mantiene el brief incluso si necesita limpieza.
¿Entrega final o cercana a final? Posiblemente ninguno sin post-pro, pero al menos sabes cuál necesita menos VFX.

No es "elige uno y usa siempre". Es "este modelo para este trabajo, ese modelo para ese otro".

Si ninguno te da "take rate" aceptable, posiblemente esa tarea aún no está madura en IA. Quizá en dos meses sí. Por ahora, planifica tu proeyecto sin depender de IA para esa parte.

Qué probar después

Una vez que mapeaste dónde falla cada modelo con tu brief real, testea variantes del prompt. Pequeñas ediciones pueden mejorar el "take rate" dramáticamente:

Agregar "4K resolution" explícitamente.
Quitar adjetivos genéricos ("cinematic", "dynamic") que confunden más que ayudan.
Describir iluminación en lugar de dejar que el modelo adivine.
Usar duración en frames exacta en lugar de segundos vago.

La iteración rápida en test es barata. La iteración lenta en producción es cara.

El método en tablas, para que lo tengas a mano

Si vienes del episodio del podcast, esto es lo que mencioné al cierre: los tres prompts en una sola vista, la tabla de evaluación por output y el mapeo modelo a cadena. Guárdalo o copialo a tu planilla y armas el test sin volver al texto largo.

Los tres tipos de prompts

Prompt	Qué pide	Ejemplo corto
1. Descriptivo limpio	Lo que quieres ver, sin pedir efectos	Producto blanco, dolly derecha, luz natural, 4s
2. Con restricción de estilo	Suma limitaciones de marca	Mismo prompt + "estilo minimalista corporativo, sin efectos"
3. Con movimiento específico	Detalla la cámara y el ritmo	Dolly derecha velocidad constante + zoom in lento + luz cenital

Tabla de evaluación por output

Por cada video generado, evalúa estos cinco criterios y dale una calificación.

Criterio	Usable tal cual	Usable con retoque menor	No usable
Ruido y artefactos	Limpio, entra directo a edición	Pequeños, fáciles de arreglar en post	Ruido grueso, costoso de limpiar
Consistencia de movimiento	Fluido a lo largo del clip	Algún jitter aislado	Saltos visibles entre frames
Paleta vs brief	Respeta la paleta solicitada	Desvía un 5-10%, se corrige con color grading	Paleta completamente distinta
Coherencia temporal	Estable de principio a fin	Drift leve en el último segundo	Se desarma a mitad del clip
Respeto a marca o logo	Identificable y correcto	Pequeñas distorsiones aceptables	Logo irreconocible o deformado

Si un output queda en "Usable tal cual" o "Usable con retoque menor" en la mayoría de los criterios, lo cuentas como usable.

Mapeo modelo a cadena de trabajo

Después de medir el take rate, ubica cada modelo en la etapa donde más te sirve.

Etapa del workflow	Qué pesa más	Modelo a elegir	Por qué
Mockup o primera pasada	Velocidad y volumen	El de mayor take rate general	Generas muchas variantes rápido para mostrar al equipo creativo
Previsualización o animatic	Respeto al brief técnico	El que mejor mantiene paleta y movimiento	El cliente necesita ver algo cercano al producto final, no un ejercicio libre
Entrega o cercana a entrega	Mínimo retrabajo en post	El que necesita menos VFX	Cada hora de roto o color que evitas es una hora que el proyecto cierra antes
Tareas que ninguno cubre bien	Honestidad operativa	Ninguno	Esa parte no está madura. Planifica sin IA por ahora y reevalúa en dos meses

La idea no es elegir un modelo y usarlo siempre. Es tener claro qué herramienta funciona en qué etapa, y volver a aplicar este método cuando salga el próximo release.

¿TE INTERESA TRABAJAR JUNTOS?

Agenda una llamada de 20 minutos.

→ AGENDAR ✉ ESCRIBIR