オーディオシリーズ
Whisper-1 音声文字起こし
- 99言語の音声認識をサポート
- 複数の出力形式:json、text、srt、vttなど
- 最大ファイルサイズ 25 MB
POST
Documentation Index
Fetch the complete documentation index at: https://docs.apimart.ai/llms.txt
Use this file to discover all available pages before exploring further.
Authorizations
リクエストボディ
⚠️ このエンドポイントはオンラインテスト(Try it)に対応していませんファイルアップロードの制限により、以下の方法でテストしてください:
- Apifox / Postman - インポート後、手動で
fileパラメータをファイルタイプに変更 - cURL - 右側のコード例を参照
- SDK - 各言語のSDKサンプルコードを使用
文字起こしする音声ファイル(ファイルタイプ)⚠️ 注意:Apifoxなどのツールでテストする場合:
- インポート後、このパラメータタイプを手動で
fileに変更してください - リクエストのContent-Typeが
multipart/form-dataであることを確認してください
音声認識モデル名例:
"whisper-1"音声の言語コード(ISO-639-1形式)言語を指定すると精度と速度が向上します対応言語:zh(中国語)、en(英語)、ja(日本語)、ko(韓国語)など99言語例:
"ja"文字起こしスタイルをガイドするためのオプションテキストプロンプト最大224トークン
出力形式対応形式:
json- JSON形式(テキストのみ)text- プレーンテキストsrt- SRT字幕形式verbose_json- 詳細JSON形式(タイムスタンプとメタデータを含む)vtt- WebVTT字幕形式
サンプリング温度、範囲0〜1高い値(0.8など)は出力をよりランダムにし、低い値(0.2など)はより確定的で一貫性のあるものにします
Response
文字起こしされたテキスト内容
タスクタイプ、
transcribeで固定verbose_json形式でのみ返されます検出または指定された言語コードverbose_json形式でのみ返されます
音声の長さ(秒)verbose_json形式でのみ返されます
テキストセグメントの配列verbose_json形式でのみ返されます