Série Audio
Whisper-1 Transcription audio
- Prend en charge la reconnaissance vocale dans 99 langues
- Plusieurs formats de sortie : json, text, srt, vtt, etc.
- Taille maximale du fichier : 25 Mo
POST
Documentation Index
Fetch the complete documentation index at: https://docs.apimart.ai/llms.txt
Use this file to discover all available pages before exploring further.
Autorisations
Toutes les interfaces requièrent une authentification par Bearer TokenObtenir une clé API :Rendez-vous sur la page de gestion des clés API pour obtenir votre clé APIAjoutez-la à l’en-tête de la requête :
Corps de la requête
⚠️ Les tests en ligne (Try it) ne sont pas pris en charge pour cet endpointEn raison des limitations de téléversement de fichiers, veuillez utiliser pour vos tests :
- Apifox / Postman — après l’import, modifiez manuellement le paramètre
fileen type fichier - cURL — référez-vous aux exemples de code à droite
- SDK — utilisez les exemples de SDK dans les différents langages
Fichier audio à transcrire (type File)⚠️ Remarque : lorsque vous testez avec Apifox ou des outils similaires :
- Après l’import, modifiez manuellement le type de ce paramètre en
file - Vérifiez que le Content-Type de la requête est bien
multipart/form-data
Nom du modèle de reconnaissance vocaleExemple :
"whisper-1"Code de la langue de l’audio (format ISO-639-1)Spécifier la langue peut améliorer la précision et la vitesseLes langues prises en charge incluent : zh (chinois), en (anglais), ja (japonais), ko (coréen) et 99 autres languesExemple :
"en"Invite textuelle facultative pour guider le style de transcription ou poursuivre un audio précédentMaximum 224 tokens
Format de sortieFormats pris en charge :
json— format JSON (texte uniquement)text— texte brutsrt— format de sous-titres SRTverbose_json— format JSON détaillé (inclut les horodatages et les métadonnées)vtt— format de sous-titres WebVTT
Température d’échantillonnage, plage de 0 à 1Les valeurs plus élevées (comme 0,8) rendent la sortie plus aléatoire, les valeurs plus basses (comme 0,2) la rendent plus déterministe et cohérente
Réponse
Contenu textuel transcrit
Type de tâche, toujours défini sur
transcribeRenvoyé uniquement au format verbose_jsonCode de langue détecté ou spécifiéRenvoyé uniquement au format verbose_json
Durée de l’audio (en secondes)Renvoyée uniquement au format verbose_json
Tableau de segments de texteRenvoyé uniquement au format verbose_json