Serie de texto
API multimodal OpenAI Responses
- Totalmente compatible con el formato de la API OpenAI Responses
- Admite entrada multimodal con texto e imágenes
- Admite extensiones de herramientas: búsqueda web, búsqueda en archivos, llamadas a funciones, MCP remoto
POST
Documentation Index
Fetch the complete documentation index at: https://docs.apimart.ai/llms.txt
Use this file to discover all available pages before exploring further.
Autorizaciones
##Todas las APIs requieren autenticación mediante Bearer Token##Obtener API Key:Visite la página de gestión de API Keys para obtener su API KeyAñádala al encabezado de la solicitud:
Body
Nombre del modeloLos modelos admitidos incluyen:
gpt-5- Modelo multimodal más reciente de OpenAIGPT-4o-image- Modelo multimodal optimizado GPT-4gpt-4-vision- Modelo GPT-4 con comprensión visual- Más modelos próximamente…
Lista de contenidos de entradaArray de entradas; cada elemento contiene los campos
role y content.💡 Relleno rápido (área Try it):- Haga clic en ”+ Add an item” para agregar un elemento de entrada
- Entrada de
role:user(mensaje del usuario),assistant(respuesta de la IA) osystem(prompt del sistema) - En
contentañada bloques de contenido (pueden incluir texto e imágenes)
Controla la aleatoriedad de la salida, rango 0-2
- Los valores más bajos (por ejemplo, 0.2) hacen la salida más determinística
- Los valores más altos (por ejemplo, 1.8) hacen la salida más aleatoria
Número máximo de tokens a generarLos distintos modelos tienen límites máximos diferentes; consulte la documentación específica de cada modelo
Si se debe usar salida en streaming
true: Respuesta en streaming (formato SSE)false: Devuelve la respuesta completa de una sola vez
Parámetro de muestreo por núcleo (nucleus sampling), rango 0-1Controla la diversidad del texto generado; se recomienda usar este parámetro alternativamente con temperatureValor por defecto: 1.0
Lista de herramientas para extender las capacidades del modeloTipos de herramientas admitidos:
- Búsqueda web (
web_search): Búsqueda de información en tiempo real en internet - Búsqueda de archivos (
file_search): Buscar contenido en archivos cargados - Llamada a funciones (
function): Llamar a funciones personalizadas - MCP remoto (
remote_mcp): Conectarse a servicios remotos del Model Context Protocol
[{"type": "web_search"}]Respuesta
Identificador único de la respuesta
Tipo de objeto, fijado como
responseTimestamp de creación
Nombre del modelo realmente utilizado
Lista de respuestas generadas
Estadísticas de uso de tokens
Ejemplos de uso
Entrada solo de texto
Uso de la herramienta de búsqueda web
cURL Example
Comprensión de imágenes
Análisis de múltiples imágenes
Imagen codificada en Base64
Uso de la herramienta de búsqueda de archivos
Uso de llamada a funciones
Uso de MCP remoto
Combinando múltiples herramientas
Especificaciones de los tipos de contenido
input_text
Tipo de entrada de texto Propiedades:type: Fijado como"input_text"text: Contenido del texto (cadena)
input_image
Tipo de entrada de imagen Propiedades:type: Fijado como"input_image"image_url: URL de la imagen o data URI codificado en Base64
- JPEG
- PNG
- GIF
- WebP
- Tamaño máximo de archivo: 20MB
- aspect_ratio recomendada: No más de 2048x2048 píxeles
Detalles del uso de herramientas
Búsqueda web
La herramienta de búsqueda web permite al modelo acceder a información en tiempo real desde internet. Ejemplo de configuración:- Consultar las últimas noticias y eventos actuales
- Obtener datos en tiempo real (acciones, clima, tipos de cambio, etc.)
- Buscar la documentación técnica más reciente
- Verificar información factual
Búsqueda de archivos
La herramienta de búsqueda de archivos permite al modelo buscar información relevante en los documentos cargados. Ejemplo de configuración:- Analizar documentos internos corporativos
- Buscar especificaciones técnicas y manuales
- Consultar contratos y documentos legales
- Sistemas de preguntas y respuestas sobre bases de conocimiento
Llamada a funciones
Defina funciones personalizadas para permitir al modelo llamar a APIs externas o ejecutar operaciones específicas. Ejemplo completo de configuración:name: Nombre de la función (requerido)description: Descripción de la función (requerido)parameters: Definición de parámetros usando el formato JSON Schematype: Tipo del parámetroproperties: Definiciones de las propiedades del parámetrorequired: Lista de parámetros requeridos
- Llamar a APIs de terceros
- Ejecutar consultas a bases de datos
- Activar procesos de negocio
- Integración con sistemas internos
MCP remoto
Conéctese a servicios remotos del Model Context Protocol (MCP) para ampliar las capacidades del modelo. Ejemplo de configuración:url: Dirección del servidor MCP (requerido)auth_token: Token de autenticación (opcional)timeout: Tiempo de espera en segundos, por defecto 30 segundos
- Conectarse a servicios de IA de nivel empresarial
- Utilizar modelos específicos de un dominio
- Acceder a fuentes de datos protegidas
- Integración de sistemas de IA distribuidos
Formato de respuesta de las herramientas
Cuando el modelo utiliza herramientas, el formato de respuesta incluirá información sobre la llamada a la herramienta:- El modelo recibe la entrada del usuario
- Analiza si se necesitan herramientas
- Si es necesario, devuelve una solicitud de llamada a la herramienta
- El cliente ejecuta la llamada a la herramienta
- Devuelve los resultados de la herramienta al modelo
- El modelo genera la respuesta final
Notas importantes
-
Requisitos para la URL de la imagen:
- Debe ser una URL accesible públicamente
- O utilizar el formato Data URI codificado en Base64
-
Facturación de tokens:
- Las imágenes consumen tokens en función de su aspect_ratio
- Las imágenes con aspect_ratio alta se redimensionan automáticamente para optimizar costos
- Las llamadas a herramientas también consumen tokens adicionales
-
Orden del contenido:
- El orden de los elementos en el array de content afecta la comprensión del modelo
- Se recomienda colocar primero las instrucciones de texto y después las imágenes
-
Combinaciones multimodales:
- Puede mezclar varios textos e imágenes en una sola solicitud
- Admite conversaciones de múltiples turnos con coherencia contextual
-
Limitaciones del uso de herramientas:
- Al usar varias herramientas simultáneamente, el modelo selecciona inteligentemente la más adecuada
- La llamada a funciones requiere definiciones claras de las funciones y descripciones de los parámetros
- Los resultados de la búsqueda web pueden estar limitados por región y tiempo
-
Compatibilidad de API:
- Totalmente compatible con el formato de la API OpenAI Responses
- Migre sin problemas el código existente de OpenAI
- Admite todas las funciones de extensión de herramientas de OpenAI