Gemini Omni Flash
Generación de video Gemini Omni Flash
- Modelo oficial de generación de video multimodal todo en uno Gemini Omni Flash de Google
- Admite texto a video, imagen a video y video a video (edición), con entradas mixtas de texto + imagen + video
- Salida de 720p / 24fps, 3–10 segundos, con audio; admite edición conversacional en varios turnos
- API de tareas asíncronas. Tras el envío, consulte el resultado de la generación mediante el ID de la tarea
POST
Autenticación
Todas las solicitudes requieren autenticación mediante Bearer Token.Obtener una API Key:Visite la página de gestión de API Keys para obtener su API Key.Añada el siguiente encabezado al realizar solicitudes:
Parámetros de la solicitud
Nombre del modelo de generación de video, fijado en
gemini-omni-flash-preview.Instrucción de texto. Para texto a video es la descripción de la escena; para imagen / video a video es la instrucción de acción / estilo / edición.
prompt y el material de referencia (image_urls / video_urls) deben proporcionarse al menos uno de ellos.Imágenes de referencia, máximo 16. Cada elemento es una URL
http(s)://.Admite JPEG / PNG. Para varios sujetos (por ejemplo, «gato + ovillo de lana») puede enviar varias imágenes y describir en el prompt cómo interactúan.Video de referencia / a editar, máximo 1 (no se admite la referencia a varios videos). Puede ser un enlace directo
http(s):// o data:video/....Relación de aspecto del video, que controla realmente la orientación de la imagen de salida.Solo admite:
16:9- horizontal (predeterminado)9:16- vertical
16:9.Resolución del video. Actualmente solo admite
720p.ID de la tarea anterior: introduzca el **
task_id** de la tarea de generación anterior.Respuesta
Código de estado de la respuesta. En caso de éxito es
200.Array de tareas devuelto.
Consultar el resultado de la tarea
La generación de video es una tarea asíncrona. Tras el envío se devuelve untask_id. Use el endpoint Obtener estado de la tarea para consultar el progreso y el resultado de la generación.