Audioserie
Whisper-1 Audio-Transkription
- Unterstützt Spracherkennung in 99 Sprachen
- Mehrere Ausgabeformate: json, text, srt, vtt usw.
- Maximale Dateigröße 25 MB
POST
Documentation Index
Fetch the complete documentation index at: https://docs.apimart.ai/llms.txt
Use this file to discover all available pages before exploring further.
Authentifizierung
Alle Schnittstellen erfordern eine Bearer-Token-AuthentifizierungAPI-Schlüssel abrufen:Besuchen Sie die API-Schlüssel-Verwaltungsseite, um Ihren API-Schlüssel zu erhaltenFügen Sie ihn dem Anfrage-Header hinzu:
Body
⚠️ Online-Tests (Try it) werden für diesen Endpunkt nicht unterstütztAufgrund von Einschränkungen beim Datei-Upload führen Sie Tests bitte folgendermaßen durch:
- Apifox / Postman – nach dem Import den Parameter
filemanuell auf den Dateityp ändern - cURL – siehe Codebeispiele rechts
- SDK – verwenden Sie die SDK-Beispiele in den jeweiligen Sprachen
Zu transkribierende Audiodatei (File-Typ)⚠️ Hinweis: Beim Testen mit Apifox oder ähnlichen Tools:
- Ändern Sie nach dem Import den Typ dieses Parameters manuell auf
file - Stellen Sie sicher, dass der Content-Type der Anfrage
multipart/form-dataist
Name des SpracherkennungsmodellsBeispiel:
"whisper-1"Sprachcode des Audios (Format ISO-639-1)Die Angabe der Sprache kann die Genauigkeit und Geschwindigkeit verbessernUnterstützte Sprachen sind unter anderem: zh (Chinesisch), en (Englisch), ja (Japanisch), ko (Koreanisch) und 99 weitere SprachenBeispiel:
"en"Optionaler Text-Prompt, um den Transkriptionsstil zu steuern oder an vorheriges Audio anzuknüpfenMaximal 224 Tokens
AusgabeformatUnterstützte Formate:
json– JSON-Format (nur Text)text– reiner Textsrt– SRT-Untertitelformatverbose_json– ausführliches JSON-Format (mit Zeitstempeln und Metadaten)vtt– WebVTT-Untertitelformat
Sampling-Temperatur, Bereich 0 bis 1Höhere Werte (z. B. 0,8) machen die Ausgabe zufälliger, niedrigere Werte (z. B. 0,2) machen sie deterministischer und konsistenter
Antwort
Transkribierter Textinhalt
Aufgabentyp, fest auf
transcribe gesetztWird nur im Format verbose_json zurückgegebenErkannter oder angegebener SprachcodeWird nur im Format verbose_json zurückgegeben
Audio-Dauer (Sekunden)Wird nur im Format verbose_json zurückgegeben
Array von TextsegmentenWird nur im Format verbose_json zurückgegeben