Gemini Omni Flash
Gemini Omni Flash 動画生成
- Google 公式 Gemini Omni Flash オールインワンマルチモーダル動画生成モデル
- テキストから動画、画像から動画、動画から動画(編集)をサポートし、テキスト + 画像 + 動画の混合入力が可能
- 720p / 24fps、3~10 秒、音声付きの出力。対話型のマルチターン編集に対応
- 非同期タスク API。送信後、タスク ID で生成結果を照会します
POST
認証
すべてのリクエストで Bearer Token 認証が必要です。API Key の取得:API Key 管理ページ にアクセスして API Key を取得してください。リクエスト時に次のヘッダーを追加します:
リクエストパラメータ
動画生成モデル名。固定値は
gemini-omni-flash-preview です。テキスト指示。テキストから動画の場合はシーンの説明、画像 / 動画から動画の場合は動作 / スタイル / 編集の指示です。
prompt と参照素材(image_urls / video_urls)は 少なくともいずれか一方 を指定してください。参照画像。最大 16 枚。各項目は
http(s):// URL です。JPEG / PNG に対応しています。複数の被写体(例:「猫 + 毛糸玉」)の場合は複数枚を指定し、それらがどのように相互作用するかを prompt で記述できます。参照 / 編集対象の動画。最大 1 本(複数動画の参照には非対応)。
http(s):// の直リンク、または data:video/...を指定できます。動画のアスペクト比。出力画面の向きを実際に制御します。対応値:
16:9- 横向き(デフォルト)9:16- 縦向き
16:9 として扱われます。動画解像度。現在は
720p のみ対応しています。直前のタスク ID:前回の生成タスクの **
task_id** を指定します。レスポンス
レスポンスステータスコード。成功時は
200 です。タスク配列を返します。
タスク結果の照会
動画生成は非同期タスクです。送信後にtask_id が返されます。タスクステータス取得 API を使用して生成の進捗と結果を照会します。