Cómo testear modelos de IA video con un proyecto real antes de adoptarlos
La brecha entre un demo y tu proyecto real es gigante. Acá te mostramos cómo validar Veo, Kling o Runway con un brief tuyo, medir usable-take rate y detectar dónde falla cada modelo.
Por qué el demo no es lo que funciona para tu proyecto
Te encuentras con un video generado por IA en la página de algún servicio de generación de imagen IA: se ve limpio, transiciones fluidas, iluminación consistente. Luego lo intentas con tu brief real y el resultado es un desastre. La diferencia no es magia, es que los demos están hechos con prompts optimizados, casos de uso ideales y probablemente post-procesamiento que no muestran.
Tu proyecto tiene restricciones reales: marca específica, paleta de color corporativo, movimientos de cámara definidos, talent u objetos que necesitan consistencia frame a frame. Eso hace que sea difícil conseguir el resultado que tiene el demo.
Ante esto hay dos caminos: adoptar la herramienta sin validarla (y descubrir el problema en medio del proyecto que estés realizando, con el costo y stress que conlleva), o testearla antes como corresponde. La segunda opción te ahorra presupuesto, evita sorpresas y te permite tomar una decisión informada sobre si esa IA te sirve en tu cadena de trabajo.
El método: tres prompts de tu briefing reciente
Toma el video de un proyecto que ya entregaste o para el que recibiste el brief en los últimos 30 días. No necesita ser complicado, elige algo que tenga:
- Un elemento visual claro: producto con logo, rostro, landscape, movimiento de cámara específico.
- Una restricción de marca: paleta de color, estilo visual, duración.
- Un criterio de éxito: ¿qué tiene que pasar para que el resultado sea usable como primera versión o mockup?.
Ahora genera tres prompts a partir de ese brief:
Prompt 1: descriptivo limpio. Describe lo que que quieres ver sin pedir efectos. Ej: "Producto blanco sobre fondo gris, cámara dolly hacia la derecha, luz natural, 4 segundos."
Prompt 2: con restricción de estilo. Agrega limitaciones de tu marca. Ej: "Producto blanco sobre fondo gris, dolly derecha, luz natural, estilo minimalista corporativo, sin efectos visuales, 4 segundos."
Prompt 3: con movimiento específico. Detalla el movimiento como tal como lo necesits...o sueñas. Ej: "Producto blanco sobre fondo gris, cámara hace dolly hacia la derecha a velocidad constante mietras el zoom se va cerrando lentamente, luz natural desde arriba, sin movimiento del objeto, 4 segundos."
La idea es no traer prompts genéricos: son tuyos, basados en lo que realmente quieres entregar.
Testea en los tres modelos principales
Hoy el triángulo es Runway, Veo y Kling. En 6 meses habrá dos o tres más, pero el método sigue igual.
Genera los tres prompts en cada modelo. No hagas solo una generación, haz tres intentos en cada uno (la API te deja). Esto te da variabilidad real: no todos los renders de un mismo modelo son idénticos.
Guarda los resultados indicando la fecha y hora en que fueron realizados. Acá viene lo importante: no evalúes con el criterio "¿qué se ve mejor?" sino "¿cuánto trabajo me demanda?".
Mide "usable-take rate"
"Usable-take rate" es un concepto que viene del mundo de los intentos en set de filmación: de cada toma que haces, ¿cuántas son "buenas tomas" sin necesitar ajustarlas o corregirlas?. En IA es similar.
Para cada generación que obtengas, pregúntate:
- ¿Entra directo a post, o necesita limpieza en VFX? (ruido, artefactos, detalles que no cierran).
- ¿El movimiento es consistente, o hay frames donde el objeto "salta"?
- ¿La paleta de color respeta la restricción, o hay cambios inesperados?
- ¿El prompt se sostiene a lo largo de los 4 segundos, o se "desvía" en el medio?
Dale a cada uno una puntuación simple: Usable tal cual / Usable con retoque menor en post / No usable.
Contar cuántos outputs de cada modelo caen en "Usable" (ambas categorías) vs "No usable" es tu take rate. Si Veo te da 5 usables de 9 intentos (55%), Kling te da 6 de 9 (67%) y Runway te da 3 de 9 (33%), ya tienes datos.
Detecta dónde falla cada modelo
No todos fallan en el mismo lugar. Eso es lo valioso que descubrirás:
- Veo mantiene coherencia en paleta pero a veces pierde movimiento de cámara fluido.
- Kling sigue el prompt de movimiento bien pero genera luces inconsistentes.
- Runway maneja logo/marca mejor pero necesita prompts muy precisos para no desviar.
Esta información, "Veo para este tipo de shot", "Kling para movimientos complejos", "Runway si la marca es es lo prioritario", es más valiosa que cualquier comparativa genérica. Es TU caso de uso, tu experiencia directa.
Aplica esto a tu cadena de trabajo
Una vez que tienes los datos, mapea dónde encaja cada modelo en tu flujo:
- ¿Primera pasada / mockup? Usa el modelo que te da mayor take rate sin importar calidad final.
- ¿Previsualización o animatic? Usa el que mejor mantiene el brief incluso si necesita limpieza.
- ¿Entrega final o cercana a final? Posiblemente ninguno sin post-pro, pero al menos sabes cuál necesita menos VFX.
No es "elige uno y usa siempre". Es "este modelo para este trabajo, ese modelo para ese otro".
Si ninguno te da "take rate" aceptable, posiblemente esa tarea aún no está madura en IA. Quizá en dos meses sí. Por ahora, planifica tu proeyecto sin depender de IA para esa parte.
Qué probar después
Una vez que mapeaste dónde falla cada modelo con tu brief real, testea variantes del prompt. Pequeñas ediciones pueden mejorar el "take rate" dramáticamente:
- Agregar "4K resolution" explícitamente.
- Quitar adjetivos genéricos ("cinematic", "dynamic") que confunden más que ayudan.
- Describir iluminación en lugar de dejar que el modelo adivine.
- Usar duración en frames exacta en lugar de segundos vago.
La iteración rápida en test es barata. La iteración lenta en producción es cara.
El método en tablas, para que lo tengas a mano
Si vienes del episodio del podcast, esto es lo que mencioné al cierre: los tres prompts en una sola vista, la tabla de evaluación por output y el mapeo modelo a cadena. Guárdalo o copialo a tu planilla y armas el test sin volver al texto largo.
Los tres tipos de prompts
| Prompt | Qué pide | Ejemplo corto |
|---|---|---|
| 1. Descriptivo limpio | Lo que quieres ver, sin pedir efectos | Producto blanco, dolly derecha, luz natural, 4s |
| 2. Con restricción de estilo | Suma limitaciones de marca | Mismo prompt + "estilo minimalista corporativo, sin efectos" |
| 3. Con movimiento específico | Detalla la cámara y el ritmo | Dolly derecha velocidad constante + zoom in lento + luz cenital |
Tabla de evaluación por output
Por cada video generado, evalúa estos cinco criterios y dale una calificación.
| Criterio | Usable tal cual | Usable con retoque menor | No usable |
|---|---|---|---|
| Ruido y artefactos | Limpio, entra directo a edición | Pequeños, fáciles de arreglar en post | Ruido grueso, costoso de limpiar |
| Consistencia de movimiento | Fluido a lo largo del clip | Algún jitter aislado | Saltos visibles entre frames |
| Paleta vs brief | Respeta la paleta solicitada | Desvía un 5-10%, se corrige con color grading | Paleta completamente distinta |
| Coherencia temporal | Estable de principio a fin | Drift leve en el último segundo | Se desarma a mitad del clip |
| Respeto a marca o logo | Identificable y correcto | Pequeñas distorsiones aceptables | Logo irreconocible o deformado |
Si un output queda en "Usable tal cual" o "Usable con retoque menor" en la mayoría de los criterios, lo cuentas como usable.
Mapeo modelo a cadena de trabajo
Después de medir el take rate, ubica cada modelo en la etapa donde más te sirve.
| Etapa del workflow | Qué pesa más | Modelo a elegir | Por qué |
|---|---|---|---|
| Mockup o primera pasada | Velocidad y volumen | El de mayor take rate general | Generas muchas variantes rápido para mostrar al equipo creativo |
| Previsualización o animatic | Respeto al brief técnico | El que mejor mantiene paleta y movimiento | El cliente necesita ver algo cercano al producto final, no un ejercicio libre |
| Entrega o cercana a entrega | Mínimo retrabajo en post | El que necesita menos VFX | Cada hora de roto o color que evitas es una hora que el proyecto cierra antes |
| Tareas que ninguno cubre bien | Honestidad operativa | Ninguno | Esa parte no está madura. Planifica sin IA por ahora y reevalúa en dos meses |
La idea no es elegir un modelo y usarlo siempre. Es tener claro qué herramienta funciona en qué etapa, y volver a aplicar este método cuando salga el próximo release.
