跳转到主要内容
POST
https://api.apimart.ai
/
v1
/
audio
/
transcriptions
curl --request POST \
  --url https://api.apimart.ai/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form 'file=@/path/to/audio.mp3' \
  --form 'model=whisper-1' \
  --form 'language=zh' \
  --form 'response_format=json'
{
  "text": "这是一段测试音频的转录文本内容。"
}
curl --request POST \
  --url https://api.apimart.ai/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form 'file=@/path/to/audio.mp3' \
  --form 'model=whisper-1' \
  --form 'language=zh' \
  --form 'response_format=json'
{
  "text": "这是一段测试音频的转录文本内容。"
}

Authorizations

Authorization
string
required
所有接口均需要使用Bearer Token进行认证获取 API Key:访问 API Key 管理页面 获取您的 API Key使用时在请求头中添加:
Authorization: Bearer YOUR_API_KEY

Body

⚠️ 此接口不支持在线调用(Try it)由于文件上传的限制,请使用以下方式测试:
  • Apifox / Postman - 导入后手动将 file 参数改为文件类型
  • cURL - 参考右侧代码示例
  • SDK - 使用各语言的 SDK 示例代码
file
string
required
要转录的音频文件(文件类型)⚠️ 注意:如果使用 Apifox 等工具测试:
  1. 导入后需要手动将此参数类型改为 file
  2. 确保请求 Content-Type 为 multipart/form-data
支持的格式:mp3, mp4, mpeg, mpga, m4a, wav, webm最大文件大小:25 MB
model
string
default:"whisper-1"
required
语音识别模型名称Example: "whisper-1"
language
string
音频的语言代码(ISO-639-1 格式)指定语言可以提高准确率和速度支持的语言包括:zh(中文)、en(英文)、ja(日文)、ko(韩文)等 99 种语言Example: "zh"
prompt
string
可选的文本提示,用于指导模型的转录风格或延续前一段音频最长 224 个 tokens
response_format
string
default:"json"
输出格式支持的格式:
  • json - JSON 格式(仅包含文本)
  • text - 纯文本
  • srt - SRT 字幕格式
  • verbose_json - 详细的 JSON 格式(包含时间戳和其他元数据)
  • vtt - WebVTT 字幕格式
temperature
number
default:"0"
采样温度,范围 0 到 1较高的值(如 0.8)会使输出更随机,较低的值(如 0.2)会使其更加确定和一致

Response

text
string
转录后的文本内容
task
string
任务类型,固定为 transcribe仅在 verbose_json 格式时返回
language
string
检测到的或指定的语言代码仅在 verbose_json 格式时返回
duration
number
音频时长(秒)仅在 verbose_json 格式时返回
segments
array
文本片段数组仅在 verbose_json 格式时返回