Аудиосерия
Whisper-1 — транскрибация аудио
- Поддержка распознавания речи на 99 языках
- Несколько форматов вывода: json, text, srt, vtt и др.
- Максимальный размер файла — 25 МБ
POST
Documentation Index
Fetch the complete documentation index at: https://docs.apimart.ai/llms.txt
Use this file to discover all available pages before exploring further.
Авторизация
Все интерфейсы требуют аутентификации по Bearer TokenПолучение API-ключа:Перейдите на страницу управления API-ключами, чтобы получить свой API-ключДобавьте его в заголовок запроса:
Тело запроса
⚠️ Онлайн-тестирование (Try it) для этой конечной точки не поддерживаетсяИз-за ограничений на загрузку файлов используйте для тестирования:
- Apifox / Postman — после импорта вручную измените тип параметра
fileна файл - cURL — см. примеры кода справа
- SDK — используйте примеры SDK на разных языках программирования
Аудиофайл для транскрибации (тип File)⚠️ Внимание: при тестировании через Apifox или аналогичные инструменты:
- После импорта вручную измените тип этого параметра на
file - Убедитесь, что Content-Type запроса —
multipart/form-data
Название модели распознавания речиПример:
"whisper-1"Код языка аудио (формат ISO-639-1)Указание языка может повысить точность и скорость распознаванияПоддерживаемые языки включают: zh (китайский), en (английский), ja (японский), ko (корейский) и ещё 99 языковПример:
"en"Необязательная текстовая подсказка для задания стиля транскрибации или продолжения предыдущего аудиоМаксимум 224 токена
Формат выводаПоддерживаемые форматы:
json— формат JSON (только текст)text— обычный текстsrt— формат субтитров SRTverbose_json— расширенный формат JSON (включает временные метки и метаданные)vtt— формат субтитров WebVTT
Температура сэмплирования, диапазон от 0 до 1Более высокие значения (например, 0.8) делают вывод более случайным, а более низкие (например, 0.2) — более детерминированным и стабильным
Ответ
Текстовое содержимое транскрибации
Тип задачи, всегда
transcribeВозвращается только в формате verbose_jsonОпределённый или указанный код языкаВозвращается только в формате verbose_json
Длительность аудио (в секундах)Возвращается только в формате verbose_json
Массив текстовых сегментовВозвращается только в формате verbose_json