HappyHorse 1.0
Geração de Vídeo HappyHorse 1.0
- Modelo de geração de vídeo HappyHorse 1.0 do Alibaba Cloud Bailian (entrada unificada, roteamento automático de modelo único)
- Roteamento automático por parâmetros: T2V (apenas prompt) / I2V (first_frame_image) / R2V (image_urls) / EDIT (video_url)
- Suporta resoluções 720P/1080P e qualquer duração inteira de 3 a 15 segundos
- Cobrado apenas por resolução × duração (segundos), independentemente da capacidade
POST
Documentation Index
Fetch the complete documentation index at: https://docs.apimart.ai/llms.txt
Use this file to discover all available pages before exploring further.
Autorização
Todos os endpoints da API exigem autenticação via Bearer TokenObtenha sua chave de API:Acesse a página de gerenciamento de chaves de API para obter sua chave de APIAdicione ao cabeçalho da requisição:
Roteamento de modos
happyhorse-1.0 é a entrada unificada para Text-to-Video / Image-to-Video / Reference-Image-to-Video / Video Edit. O backend determina automaticamente o modo com base nos parâmetros recebidos. Todos os modos são cobrados pela mesma regra (apenas resolução × segundos):
| Campos passados | Roteia para | Descrição do modo |
|---|---|---|
Apenas prompt | Text-to-Video (T2V) | Gera vídeo puramente a partir de texto |
prompt + first_frame_image | Image-to-Video (I2V) | Anima a partir de uma imagem do primeiro quadro |
prompt + image_urls (1–9 imagens) | Reference-Image-to-Video (R2V) | Gera uma nova cena a partir de imagens de referência |
prompt + video_url (opcional image_urls 0–5 como refs de estilo / audio_setting) | Video Edit (EDIT) | Reescreve / reestiliza um vídeo de origem |
video_url > first_frame_image > image_urls > apenas prompt.
Regras de exclusão mútua: os três campos de mídia (first_frame_image / image_urls / video_url) são mutuamente exclusivos aos pares. A única combinação válida é video_url + image_urls (modo EDIT + imagens de referência). Passar dois campos mutuamente exclusivos retorna 400 mixed_media_not_allowed.
Parâmetros da requisição
Nome do modelo de geração de vídeo, fixo como
happyhorse-1.0Descrição do conteúdo do vídeo, até 2500 caracteres; não pode conter tokens especiais
- Modos T2V / R2V / EDIT: obrigatório
- Modo I2V: opcional, mas recomendado para guiar o movimento da câmera e as ações
"A little girl walking down the road, cinematic feel"Imagem do primeiro quadro, aciona o I2V (Image-to-Video). Suporta URL ou base64 (
data:image/<mime>;base64,<payload>, o gateway faz upload para o OSS automaticamente)Mutuamente exclusivo com image_urls / video_urlRequisitos da imagem do primeiro quadro:
- Formato: JPEG / JPG / PNG / BMP / WEBP
- Lado curto: ≥ 300px
- Proporção:
1:2.5a2.5:1 - Tamanho do arquivo: ≤ 10MB
Array de imagens:
- Modo R2V (apenas
image_urlsfornecido): 1–9 imagens, usadas como referências de sujeito/estilo para gerar uma nova cena - Modo EDIT (fornecido junto com
video_url): 0–5 imagens, usadas como referência de estilo
first_frame_image; pode ser combinado com video_urlRequisitos da imagem de referência:
- Formato: JPEG / JPG / PNG / BMP / WEBP
- Lado curto: ≥ 720p recomendado
- Proporção: curto / longo ≥ 0,4
- Tamanho do arquivo: ≤ 10MB
- Quantidade: R2V deve ser 1–9; EDIT até 5
URL do vídeo de origem, aciona o EDIT (Video Edit). Base64 não é suportado — forneça um link direto HTTP/HTTPSMutuamente exclusivo com
first_frame_image; pode ser combinado com image_urls (≤ 5)Requisitos do vídeo de origem:
- Duração: 3–60 segundos (> 15s será automaticamente truncado pelo upstream de 0 a 15s)
- Resolução: mínimo 480p, lado curto ≥ 360
- Proporção:
1:8a8:1 - Formato: MP4 / MOV (H.264 recomendado)
- Taxa de quadros: > 8 fps
- Tamanho do arquivo: ≤ 100MB
Configuração de áudio, efetiva apenas no modo EDIT (deve passar
video_url)Opções:auto- Gerar áudio automaticamente (padrão)origin- Manter a faixa de áudio do vídeo de origem
Resolução do vídeo (afeta a cobrança)Opções:
720P- Padrão1080P- Alta definição (padrão)
Duração do vídeo em segundos (afeta a cobrança)Intervalo suportado: qualquer inteiro de
3 a 15Padrão: 5Proporção de telaFormatos suportados:
16:9- Paisagem widescreen (padrão)9:16- Retrato1:1- Quadrado4:3- Paisagem3:4- Retrato
Se deve adicionar uma marca d’água ao vídeo gerado
true: adiciona marca d’águafalse: sem marca d’água (padrão)
Seed aleatório usado para controlar a aleatoriedade do conteúdo geradoIntervalo de valores:
[0, 2147483647]. Se omitido, um seed aleatório é usado.- Para requisições idênticas, o modelo gera resultados diferentes ao receber valores de seed diferentes (por exemplo, omitindo o seed)
- Para requisições idênticas, o modelo gera resultados semelhantes ao receber o mesmo valor de seed, mas a consistência exata não é garantida
Resposta
Código de status da resposta, 200 em caso de sucesso
Array de dados da resposta
Casos de uso
Caso 1: Texto para vídeo T2V (Requisição mais simples)
Caso 2: Texto para vídeo T2V (Parâmetros completos)
Caso 3: Imagem para vídeo I2V (first_frame_image)
Caso 4: Referência-Imagem para vídeo R2V (múltiplas referências)
Caso 5: Video Edit EDIT (mantém áudio original + referência de estilo)
Caso 6: 720P para economizar custo
Guia de seleção de modo
| Requisito | Abordagem recomendada |
|---|---|
| Gerar vídeo apenas a partir de texto | Passe apenas prompt (T2V) |
| Fazer uma imagem “ganhar vida” (usar como primeiro quadro) | Passe first_frame_image (I2V) |
| Gerar uma nova cena a partir de um conjunto de imagens de referência | Passe image_urls (1–9, R2V) |
| Reescrever / reestilizar um vídeo existente | Passe video_url (EDIT), combine opcionalmente com image_urls (0–5) como refs de estilo |
| Economizar custo | Use resolution: "720P" |
Dicas de uso
- Lógica de entrada unificada: os campos de entrada decidem o modo. Note que os três campos de mídia (
first_frame_image/image_urls/video_url) são mutuamente exclusivos aos pares sizeefetivo apenas em T2V/R2V: nos modos I2V / EDIT,sizeé ignorado — a proporção de saída é determinada pela mídia de entrada- Duração: 5–10 segundos é o ponto ideal. Muito curto causa movimento truncado; muito longo aumenta significativamente o tempo de processamento upstream
- Qualidade da imagem do primeiro quadro: clara, bem composta, sujeito centralizado — melhora significativamente a saída I2V
- Escrita do prompt: descreva movimento / câmera / atmosfera (por exemplo, “slow push-in, cinematic, warm tones”) para obter melhores resultados do que descrições puramente estáticas de cena
- Vídeo de entrada do EDIT: > 15 segundos será automaticamente truncado pelo upstream de 0 a 15s. Se precisar de outros segmentos, fatie o vídeo você mesmo primeiro
Consultar resultados da tarefaA geração de vídeos é uma tarefa assíncrona que retorna um
task_id no envio. Use o endpoint Obter status da tarefa para consultar o progresso e os resultados da geração.