文字系列
OpenAI 多模态响应接口
- 完全兼容 OpenAI Responses API 格式
- 支持文本和图像的多模态输入
- 支持工具扩展:网络搜索、文件搜索、函数调用、远程MCP
POST
Documentation Index
Fetch the complete documentation index at: https://docs.apimart.ai/llms.txt
Use this file to discover all available pages before exploring further.
Authorizations
Body
模型名称支持的模型包括:
gpt-5- OpenAI 最新多模态模型GPT-4o-image- GPT-4 优化版多模态模型gpt-4-vision- GPT-4 视觉理解模型- 更多模型持续更新中…
输入内容列表输入数组,每个输入项包含
role 和 content 两个字段。💡 快速填写(Try it 区域):- 点击 ”+ Add an item” 添加一个输入项
role输入:user(用户消息)、assistant(AI回复)或system(系统提示词)content添加内容块(可包含文本和图像)
控制输出随机性,范围 0-2
- 较低的值(如 0.2)使输出更确定
- 较高的值(如 1.8)使输出更随机
生成的最大token数量不同模型有不同的最大值限制,请参考具体模型文档
是否使用流式输出
true: 流式返回(SSE格式)false: 一次性返回完整响应
核采样参数,范围 0-1控制生成文本的多样性,建议与 temperature 二选一使用默认值:1.0
工具列表,用于扩展模型能力支持的工具类型:
- 网络搜索 (
web_search): 实时搜索互联网信息 - 文件搜索 (
file_search): 搜索已上传的文件内容 - 函数调用 (
function): 调用自定义函数 - 远程MCP (
remote_mcp): 连接远程模型上下文协议服务
[{"type": "web_search"}]Response
响应的唯一标识符
对象类型,固定为
response创建时间戳
实际使用的模型名称
生成的回复列表
token使用统计
使用示例
纯文本输入
使用网络搜索工具
cURL示例
图像理解
多图像分析
Base64编码图像
使用文件搜索工具
使用函数调用
使用远程MCP
组合使用多个工具
内容类型说明
input_text
文本输入类型 属性:type: 固定为"input_text"text: 文本内容(字符串)
input_image
图像输入类型 属性:type: 固定为"input_image"image_url: 图像URL或Base64编码的数据URI
-
完整的图像URL地址
- 公开可访问的图像URL(http:// 或 https://)
- 示例:
https://example.com/image.jpg
-
Base64 编码格式
- 必须使用完整的 Data URI 格式
- 格式:
data:image/{格式};base64,{base64数据} - 示例:
data:image/jpeg;base64,/9j/4AAQSkZJRgABAQEAYABg... - ⚠️ 注意:必须包含
data:image/jpeg;base64,前缀部分(其中jpeg可以替换为png、gif、webp等)
- JPEG
- PNG
- GIF
- WebP
- 最大文件大小:20MB
- 推荐分辨率:不超过2048x2048像素
工具使用详解
网络搜索 (Web Search)
使用网络搜索工具可以让模型访问实时互联网信息。 配置示例:- 查询最新新闻和时事
- 获取实时数据(股票、天气、汇率等)
- 搜索最新的技术文档和资料
- 验证事实信息
文件搜索 (File Search)
文件搜索工具允许模型在已上传的文档中搜索相关信息。 配置示例:- 分析企业内部文档
- 搜索技术规范和手册
- 查询合同和法律文件
- 知识库问答系统
函数调用 (Function Calling)
定义自定义函数,让模型能够调用外部API或执行特定操作。 完整配置示例:name: 函数名称(必需)description: 函数功能描述(必需)parameters: 参数定义,使用JSON Schema格式type: 参数类型properties: 参数属性定义required: 必需参数列表
- 调用第三方API
- 执行数据库查询
- 触发业务流程
- 与内部系统集成
远程MCP (Remote MCP)
连接到远程模型上下文协议(MCP)服务,扩展模型能力。 配置示例:url: MCP服务器地址(必需)auth_token: 认证令牌(可选)timeout: 超时时间(秒),默认30秒
- 连接企业级AI服务
- 使用专业领域模型
- 访问受保护的数据源
- 分布式AI系统集成
工具响应格式
当模型使用工具时,响应格式会包含工具调用信息:- 模型接收用户输入
- 分析是否需要使用工具
- 如需要,返回工具调用请求
- 客户端执行工具调用
- 将工具结果返回给模型
- 模型生成最终响应
注意事项
-
图像URL要求:
- 必须是公开可访问的URL
- 或使用Base64编码的Data URI格式
-
Token计费:
- 图像会根据其分辨率消耗相应的tokens
- 高分辨率图像会自动调整大小以优化成本
- 工具调用也会消耗额外的tokens
-
内容顺序:
- content数组中的元素顺序会影响模型理解
- 建议先放置文本指令,再放置图像
-
多模态组合:
- 可以在一个请求中混合多个文本和图像
- 支持多轮对话,保持上下文连贯性
-
工具使用限制:
- 同时使用多个工具时,模型会智能选择最合适的工具
- 函数调用需要明确的函数定义和参数说明
- 网络搜索结果可能受地域和时间限制
-
API兼容性:
- 完全兼容OpenAI Responses API格式
- 可无缝迁移现有OpenAI代码
- 支持所有OpenAI工具扩展功能