curl --request POST \
--url https://api.apimart.ai/v1/audio/transcriptions \
--header 'Authorization: Bearer <token>' \
--header 'Content-Type: multipart/form-data' \
--form 'file=@/path/to/audio.mp3' \
--form 'model=whisper-1' \
--form 'language=zh' \
--form 'response_format=json'
{
"text": "这是一段测试音频的转录文本内容。"
}
Authorizations
所有接口均需要使用Bearer Token进行认证获取 API Key:访问 API Key 管理页面 获取您的 API Key使用时在请求头中添加:Authorization: Bearer YOUR_API_KEY
Body
⚠️ 此接口不支持在线调用(Try it)由于文件上传的限制,请使用以下方式测试:
- Apifox / Postman - 导入后手动将
file 参数改为文件类型
- cURL - 参考右侧代码示例
- SDK - 使用各语言的 SDK 示例代码
要转录的音频文件(文件类型)⚠️ 注意:如果使用 Apifox 等工具测试:
- 导入后需要手动将此参数类型改为
file
- 确保请求 Content-Type 为
multipart/form-data
支持的格式:mp3, mp4, mpeg, mpga, m4a, wav, webm最大文件大小:25 MB
model
string
default:"whisper-1"
required
语音识别模型名称Example: "whisper-1"
音频的语言代码(ISO-639-1 格式)指定语言可以提高准确率和速度支持的语言包括:zh(中文)、en(英文)、ja(日文)、ko(韩文)等 99 种语言Example: "zh"
可选的文本提示,用于指导模型的转录风格或延续前一段音频最长 224 个 tokens
输出格式支持的格式:
json - JSON 格式(仅包含文本)
text - 纯文本
srt - SRT 字幕格式
verbose_json - 详细的 JSON 格式(包含时间戳和其他元数据)
vtt - WebVTT 字幕格式
采样温度,范围 0 到 1较高的值(如 0.8)会使输出更随机,较低的值(如 0.2)会使其更加确定和一致
Response
任务类型,固定为 transcribe仅在 verbose_json 格式时返回
检测到的或指定的语言代码仅在 verbose_json 格式时返回
音频时长(秒)仅在 verbose_json 格式时返回
文本片段数组仅在 verbose_json 格式时返回