Перейти к основному содержанию
POST
/
v1
/
audio
/
transcriptions
curl --request POST \
  --url https://api.apimart.ai/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form 'file=@/path/to/audio.mp3' \
  --form 'model=whisper-1' \
  --form 'language=en' \
  --form 'response_format=json'
{
  "text": "This is a transcribed text from the test audio."
}

Documentation Index

Fetch the complete documentation index at: https://docs.apimart.ai/llms.txt

Use this file to discover all available pages before exploring further.

curl --request POST \
  --url https://api.apimart.ai/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form 'file=@/path/to/audio.mp3' \
  --form 'model=whisper-1' \
  --form 'language=en' \
  --form 'response_format=json'
{
  "text": "This is a transcribed text from the test audio."
}

Авторизация

Authorization
string
обязательно
Все интерфейсы требуют аутентификации по Bearer TokenПолучение API-ключа:Перейдите на страницу управления API-ключами, чтобы получить свой API-ключДобавьте его в заголовок запроса:
Authorization: Bearer YOUR_API_KEY

Тело запроса

⚠️ Онлайн-тестирование (Try it) для этой конечной точки не поддерживаетсяИз-за ограничений на загрузку файлов используйте для тестирования:
  • Apifox / Postman — после импорта вручную измените тип параметра file на файл
  • cURL — см. примеры кода справа
  • SDK — используйте примеры SDK на разных языках программирования
file
string
обязательно
Аудиофайл для транскрибации (тип File)⚠️ Внимание: при тестировании через Apifox или аналогичные инструменты:
  1. После импорта вручную измените тип этого параметра на file
  2. Убедитесь, что Content-Type запроса — multipart/form-data
Поддерживаемые форматы: mp3, mp4, mpeg, mpga, m4a, wav, webmМаксимальный размер файла: 25 МБ
model
string
по умолчанию:"whisper-1"
обязательно
Название модели распознавания речиПример: "whisper-1"
language
string
Код языка аудио (формат ISO-639-1)Указание языка может повысить точность и скорость распознаванияПоддерживаемые языки включают: zh (китайский), en (английский), ja (японский), ko (корейский) и ещё 99 языковПример: "en"
prompt
string
Необязательная текстовая подсказка для задания стиля транскрибации или продолжения предыдущего аудиоМаксимум 224 токена
response_format
string
по умолчанию:"json"
Формат выводаПоддерживаемые форматы:
  • json — формат JSON (только текст)
  • text — обычный текст
  • srt — формат субтитров SRT
  • verbose_json — расширенный формат JSON (включает временные метки и метаданные)
  • vtt — формат субтитров WebVTT
temperature
number
по умолчанию:"0"
Температура сэмплирования, диапазон от 0 до 1Более высокие значения (например, 0.8) делают вывод более случайным, а более низкие (например, 0.2) — более детерминированным и стабильным

Ответ

text
string
Текстовое содержимое транскрибации
task
string
Тип задачи, всегда transcribeВозвращается только в формате verbose_json
language
string
Определённый или указанный код языкаВозвращается только в формате verbose_json
duration
number
Длительность аудио (в секундах)Возвращается только в формате verbose_json
segments
array
Массив текстовых сегментовВозвращается только в формате verbose_json