Seri Audio
Transkripsi Audio Whisper-1
- Mendukung pengenalan suara dalam 99 bahasa
- Beberapa format output: json, text, srt, vtt, dll.
- Ukuran file maksimum 25 MB
POST
Documentation Index
Fetch the complete documentation index at: https://docs.apimart.ai/llms.txt
Use this file to discover all available pages before exploring further.
Otorisasi
Semua antarmuka memerlukan autentikasi Bearer TokenDapatkan API Key:Kunjungi Halaman Manajemen API Key untuk mendapatkan API Key AndaTambahkan ke header request:
Body
⚠️ Pengujian online (Try it) tidak didukung untuk endpoint iniKarena keterbatasan unggahan file, silakan uji menggunakan:
- Apifox / Postman - Ubah secara manual
fileparameter menjadi jenis file setelah impor - cURL - Lihat contoh kode di sebelah kanan
- SDK - Gunakan contoh SDK dalam berbagai bahasa
File audio yang akan ditranskripsikan (jenis file)⚠️ Catatan: Saat menguji dengan Apifox atau alat serupa:
- Setelah impor, ubah jenis parameter ini secara manual menjadi
file - Pastikan Content-Type request adalah
multipart/form-data
Nama model pengenalan suaraContoh:
"whisper-1"Kode bahasa audio (format ISO-639-1)Menentukan bahasa dapat meningkatkan akurasi dan kecepatanBahasa yang didukung mencakup: zh (Bahasa Mandarin), en (Bahasa Inggris), ja (Bahasa Jepang), ko (Bahasa Korea), dan 99 bahasa lainnyaContoh:
"en"Prompt teks opsional untuk memandu gaya transkripsi atau melanjutkan dari audio sebelumnyaMaksimum 224 token
Format outputFormat yang didukung:
json- Format JSON (hanya teks)text- Teks polossrt- Format subtitle SRTverbose_json- Format JSON terperinci (mencakup timestamp dan metadata)vtt- Format subtitle WebVTT
Sampling temperature, rentang 0 hingga 1Nilai yang lebih tinggi (seperti 0.8) membuat output lebih acak, nilai yang lebih rendah (seperti 0.2) membuatnya lebih deterministik dan konsisten
Response
Konten teks hasil transkripsi
Jenis tugas, tetap sebagai
transcribeHanya dikembalikan pada format verbose_jsonKode bahasa yang terdeteksi atau ditentukanHanya dikembalikan pada format verbose_json
Durasi audio (detik)Hanya dikembalikan pada format verbose_json
Array segmen teksHanya dikembalikan pada format verbose_json