HappyHorse 1.0
Generación de Video HappyHorse 1.0
- Modelo de generación de video HappyHorse 1.0 de Alibaba Cloud Bailian (entrada unificada, enrutamiento automático de modelo único)
- Enrutamiento automático por parámetros: T2V (solo prompt) / I2V (first_frame_image) / R2V (image_urls) / EDIT (video_url)
- Soporta resoluciones 720P/1080P y cualquier duración entera de 3 a 15 segundos
- Facturado únicamente por resolución × duración (segundos), independientemente de la capacidad
POST
Documentation Index
Fetch the complete documentation index at: https://docs.apimart.ai/llms.txt
Use this file to discover all available pages before exploring further.
Autorización
Todos los endpoints de la API requieren autenticación mediante Bearer TokenObtenga su API Key:Visite la página de gestión de API Keys para obtener su API KeyAñádala al encabezado de la solicitud:
Enrutamiento de modos
happyhorse-1.0 es la entrada unificada para Text-to-Video / Image-to-Video / Reference-Image-to-Video / Video Edit. El backend determina automáticamente el modo según los parámetros entrantes. Todos los modos se facturan con la misma regla (solo resolución × segundos):
| Campos que envía | Se enruta a | Descripción del modo |
|---|---|---|
Solo prompt | Text-to-Video (T2V) | Genera video únicamente a partir de texto |
prompt + first_frame_image | Image-to-Video (I2V) | Anima desde una imagen del primer fotograma |
prompt + image_urls (1–9 imágenes) | Reference-Image-to-Video (R2V) | Genera una nueva escena a partir de imágenes de referencia |
prompt + video_url (opcional image_urls 0–5 como referencias de estilo / audio_setting) | Video Edit (EDIT) | Reescribe / re-estiliza un video fuente |
video_url > first_frame_image > image_urls > solo prompt.
Reglas de exclusión mutua: los tres campos de medios (first_frame_image / image_urls / video_url) son mutuamente excluyentes por pares. La única combinación válida es video_url + image_urls (modo EDIT + imágenes de referencia). Pasar dos campos mutuamente excluyentes devuelve 400 mixed_media_not_allowed.
Parámetros de la solicitud
Nombre del modelo de generación de video, fijado como
happyhorse-1.0Descripción del contenido del video, hasta 2500 caracteres; no puede contener tokens especiales
- Modos T2V / R2V / EDIT: obligatorio
- Modo I2V: opcional, pero recomendado para guiar el movimiento de cámara y las acciones
"A little girl walking down the road, cinematic feel"Imagen del primer fotograma, activa I2V (Image-to-Video). Admite URL o base64 (
data:image/<mime>;base64,<payload>, el gateway la sube automáticamente a OSS)Mutuamente excluyente con image_urls / video_urlRequisitos de la imagen del primer fotograma:
- Formato: JPEG / JPG / PNG / BMP / WEBP
- Lado corto: ≥ 300px
- Proporción de aspecto:
1:2.5a2.5:1 - Tamaño del archivo: ≤ 10MB
Array de imágenes:
- Modo R2V (solo se proporciona
image_urls): 1–9 imágenes, usadas como referencias de sujeto/estilo para generar una nueva escena - Modo EDIT (proporcionado junto con
video_url): 0–5 imágenes, usadas como referencia de estilo
first_frame_image; puede combinarse con video_urlRequisitos de las imágenes de referencia:
- Formato: JPEG / JPG / PNG / BMP / WEBP
- Lado corto: ≥ 720p recomendado
- Proporción de aspecto: corto / largo ≥ 0.4
- Tamaño del archivo: ≤ 10MB
- Cantidad: R2V debe ser 1–9; EDIT hasta 5
URL del video fuente, activa EDIT (Video Edit). No se admite Base64 — proporcione un enlace directo HTTP/HTTPSMutuamente excluyente con
first_frame_image; puede combinarse con image_urls (≤ 5)Requisitos del video fuente:
- Duración: 3–60 segundos (> 15s será truncado automáticamente por el upstream de 0 a 15s)
- Resolución: mínimo 480p, lado corto ≥ 360
- Proporción de aspecto:
1:8a8:1 - Formato: MP4 / MOV (H.264 recomendado)
- Tasa de fotogramas: > 8 fps
- Tamaño del archivo: ≤ 100MB
Configuración de audio, solo efectiva en modo EDIT (debe pasar
video_url)Opciones:auto- Genera audio automáticamente (por defecto)origin- Mantiene la pista de audio del video fuente
Resolución del video (afecta a la facturación)Opciones:
720P- Estándar1080P- Alta definición (por defecto)
Duración del video en segundos (afecta a la facturación)Rango soportado: cualquier entero de
3 a 15Por defecto: 5Proporción de aspectoFormatos soportados:
16:9- Paisaje panorámico (por defecto)9:16- Retrato1:1- Cuadrado4:3- Paisaje3:4- Retrato
Si se debe añadir una marca de agua al video generado
true: añadir marca de aguafalse: no añadir marca de agua (por defecto)
Semilla aleatoria usada para controlar la aleatoriedad del contenido generadoRango de valores:
[0, 2147483647]. Si se omite, se usa una semilla aleatoria.- Para solicitudes idénticas, el modelo genera resultados diferentes al recibir valores de seed diferentes (por ejemplo, al omitir el seed)
- Para solicitudes idénticas, el modelo genera resultados similares al recibir el mismo valor de seed, pero no se garantiza consistencia exacta
Respuesta
Código de estado de la respuesta, 200 en caso de éxito
Array de datos de la respuesta
Casos de uso
Caso 1: Texto a video T2V (Solicitud más simple)
Caso 2: Texto a video T2V (Parámetros completos)
Caso 3: Imagen a video I2V (first_frame_image)
Caso 4: Referencia-Imagen a video R2V (múltiples referencias)
Caso 5: Video Edit EDIT (mantener audio original + referencia de estilo)
Caso 6: 720P para ahorrar costos
Guía de selección de modo
| Requisito | Enfoque recomendado |
|---|---|
| Generar video solo a partir de texto | Pasar solo prompt (T2V) |
| Hacer que una imagen “cobre vida” (usarla como primer fotograma) | Pasar first_frame_image (I2V) |
| Generar una nueva escena a partir de un conjunto de imágenes de referencia | Pasar image_urls (1–9, R2V) |
| Reescribir / re-estilizar un video existente | Pasar video_url (EDIT), opcionalmente combinar con image_urls (0–5) como referencias de estilo |
| Ahorrar costos | Usar resolution: "720P" |
Consejos de uso
- Lógica de entrada unificada: los campos de entrada determinan el modo. Tenga en cuenta que los tres campos de medios (
first_frame_image/image_urls/video_url) son mutuamente excluyentes por pares sizesolo efectivo en T2V/R2V: en los modos I2V / EDIT,sizese ignora — la proporción de aspecto de salida está determinada por el medio de entrada- Duración: de 5 a 10 segundos es el punto óptimo. Demasiado corta causa movimiento entrecortado; demasiado larga aumenta significativamente el tiempo de procesamiento upstream
- Calidad de la imagen del primer fotograma: clara, bien compuesta, sujeto centrado — mejora significativamente la salida I2V
- Redacción del prompt: describa movimiento / cámara / atmósfera (por ejemplo, “slow push-in, cinematic, warm tones”) para obtener mejores resultados que con descripciones puramente estáticas de la escena
- Video de entrada EDIT: > 15 segundos será truncado automáticamente por el upstream de 0 a 15s. Si necesita otros segmentos, recorte el video usted mismo primero
Consultar resultados de la tareaLa generación de video es una tarea asíncrona que devuelve un
task_id al enviarse. Use el endpoint Obtener estado de la tarea para consultar el progreso y los resultados de la generación.