HappyHorse 1.0
HappyHorse 1.0 動画生成
- Alibaba Cloud Bailian HappyHorse 1.0 動画生成モデル(統一エンドポイント、単一モデル自動ルーティング)
- パラメータに応じて自動ルーティング:T2V(prompt のみ)/ I2V(first_frame_image)/ R2V(image_urls)/ EDIT(video_url)
- 720P/1080P 解像度、3〜15 秒の任意の整数秒に対応
- 解像度 × 秒数のみで課金、機能種別に依存しない
POST
認証
モードルーティング
happyhorse-1.0 はテキストから動画 / 画像から動画 / 参照画像から動画 / 動画編集の統一エンドポイントです。バックエンドが受信したパラメータに基づいて自動的にモードを判定します。全モードは統一ルール(解像度 × 秒)で課金されます:
| 渡すフィールド | ルーティング先 | モード説明 |
|---|---|---|
prompt のみ | テキストから動画(T2V) | テキスト説明のみから動画生成 |
prompt + first_frame_image | 画像から動画(I2V) | 画像を先頭フレームとして動かす |
prompt + image_urls(1〜9 枚) | 参照画像から動画(R2V) | 一連の参照画像から新しいシーンを生成 |
prompt + video_url(任意で image_urls 0〜5 枚をスタイル参照 / audio_setting) | 動画編集(EDIT) | 元動画の改変・スタイル変換 |
video_url > first_frame_image > image_urls > prompt のみ。
フィールド排他ルール:3 つのメディアフィールド(first_frame_image / image_urls / video_url)はペアで相互排他です。唯一の有効な組み合わせは video_url + image_urls(EDIT モード + 参照画像)です。排他フィールドを同時指定すると 400 mixed_media_not_allowed が返されます。
リクエストパラメータ
動画生成モデル名。
happyhorse-1.0 で固定動画内容の説明、最大 2500 文字。特殊トークンを含めることはできません
- T2V / R2V / EDIT モード:必須
- I2V モード:任意だが、カメラワークやアクションの指示のため推奨
"道を歩く少女、映画のような映像"先頭フレーム画像。I2V(画像から動画)をトリガー。URL または base64(
data:image/<mime>;base64,<payload>、ゲートウェイが自動的に OSS にアップロード)に対応image_urls / video_url と相互排他先頭フレーム画像の要件:
- フォーマット:JPEG / JPG / PNG / BMP / WEBP
- 短辺ピクセル:≥ 300px
- アスペクト比:
1:2.5〜2.5:1 - ファイルサイズ:≤ 10MB
画像配列:
- R2V モード(
image_urlsのみ指定):1〜9 枚、被写体/スタイル参照として新しいシーンを生成 - EDIT モード(
video_urlと併せて指定):0〜5 枚、スタイル参照画像として使用
first_frame_image と相互排他、video_url とは併用可能参照画像の要件:
- フォーマット:JPEG / JPG / PNG / BMP / WEBP
- 短辺ピクセル:≥ 720p 推奨
- アスペクト比:短辺/長辺 ≥ 0.4
- ファイルサイズ:≤ 10MB
- 枚数:R2V は 1〜9 枚必須、EDIT は最大 5 枚
ソース動画 URL。EDIT(動画編集)をトリガー。base64 は非対応、HTTP/HTTPS 直リンクを指定してください
first_frame_image と相互排他、image_urls(≤ 5 枚)とは併用可能ソース動画の要件:
- 長さ:3〜60 秒(> 15s の場合、上流が 0 から 15s まで自動切り出し)
- 解像度:最小 480p、短辺 ≥ 360
- アスペクト比:
1:8〜8:1 - フォーマット:MP4 / MOV(H.264 推奨)
- フレームレート:> 8 fps
- ファイルサイズ:≤ 100MB
音声設定。EDIT モードのみ有効(
video_url の指定が必須)選択肢:auto- 自動生成音声(デフォルト)origin- 元動画の音声トラックを保持
動画解像度(課金に影響)選択肢:
720P- 標準1080P- 高解像度(デフォルト)
動画の長さ(秒、課金に影響)対応範囲:
3〜15 の任意の整数デフォルト:5画面のアスペクト比対応フォーマット:
16:9- 横向きワイド(デフォルト)9:16- 縦向き1:1- 正方形4:3- 横向き3:4- 縦向き
生成された動画にウォーターマークを追加するかどうか
true:ウォーターマークを追加false:ウォーターマークを追加しない(デフォルト)
生成内容のランダム性を制御するシード範囲:
[0, 2147483647]。省略時はランダム- 同一リクエストで異なるseed値を受け取ると(seedを指定しない場合など)、異なる結果が生成されます
- 同一リクエストで同じseed値を受け取ると、類似した結果が生成されますが、完全一致は保証されません
レスポンス
レスポンスステータスコード。成功時は 200
レスポンスデータ配列
使用例
例 1:テキストから動画 T2V(最小リクエスト)
例 2:テキストから動画 T2V(フルパラメータ)
例 3:画像から動画 I2V(first_frame_image)
例 4:参照画像から動画 R2V(複数参照画像)
例 5:動画編集 EDIT(元音声保持 + スタイル参照)
例 6:720P で料金節約
モード選択ガイド
| 要件 | 推奨方法 |
|---|---|
| テキストのみから動画生成 | prompt のみ指定(T2V) |
| 画像を”動かす”(先頭フレームとして使用) | first_frame_image を指定(I2V) |
| 一連の参照画像から新しいシーンを生成 | image_urls(1〜9 枚、R2V)を指定 |
| 既存動画の改変・スタイル変換 | video_url(EDIT)を指定、image_urls 0〜5 枚をスタイル参照として併用可 |
| 料金節約 | resolution: "720P" を指定 |
使用上のヒント
- 統一エンドポイントの動作:渡されたフィールドでモードが決まります。3 つのメディアフィールド(
first_frame_image/image_urls/video_url)はペアで相互排他です sizeは T2V/R2V のみ有効:I2V / EDIT モードではsizeが無視され、出力アスペクト比は入力メディアにより決定されます- 長さ:5〜10 秒が最適。短すぎると動きが不連続、長すぎると上流処理時間が大幅に増加します
- 先頭フレーム画像の品質:鮮明、構図が明確、被写体が中央 — I2V の効果が大きく向上します
- プロンプト記述:動き / カメラワーク / 雰囲気を記述(例「ゆっくりプッシュイン、映画のような、暖色」)すると、静的なシーン記述のみより良い結果になります
- EDIT 入力動画:> 15 秒の場合、上流が 0 から 15s まで自動切り出します。他のセグメントが必要な場合は事前に動画を分割してください
タスク結果の取得動画生成は非同期タスクで、送信時に
task_id が返されます。タスクステータス取得 エンドポイントで生成進捗と結果を取得してください。