Zum Hauptinhalt springen
POST
/
v1
/
audio
/
transcriptions
curl --request POST \
  --url https://api.apimart.ai/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form 'file=@/path/to/audio.mp3' \
  --form 'model=whisper-1' \
  --form 'language=en' \
  --form 'response_format=json'
{
  "text": "This is a transcribed text from the test audio."
}

Documentation Index

Fetch the complete documentation index at: https://docs.apimart.ai/llms.txt

Use this file to discover all available pages before exploring further.

curl --request POST \
  --url https://api.apimart.ai/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form 'file=@/path/to/audio.mp3' \
  --form 'model=whisper-1' \
  --form 'language=en' \
  --form 'response_format=json'
{
  "text": "This is a transcribed text from the test audio."
}

Authentifizierung

Authorization
string
erforderlich
Alle Schnittstellen erfordern eine Bearer-Token-AuthentifizierungAPI-Schlüssel abrufen:Besuchen Sie die API-Schlüssel-Verwaltungsseite, um Ihren API-Schlüssel zu erhaltenFügen Sie ihn dem Anfrage-Header hinzu:
Authorization: Bearer YOUR_API_KEY

Body

⚠️ Online-Tests (Try it) werden für diesen Endpunkt nicht unterstütztAufgrund von Einschränkungen beim Datei-Upload führen Sie Tests bitte folgendermaßen durch:
  • Apifox / Postman – nach dem Import den Parameter file manuell auf den Dateityp ändern
  • cURL – siehe Codebeispiele rechts
  • SDK – verwenden Sie die SDK-Beispiele in den jeweiligen Sprachen
file
string
erforderlich
Zu transkribierende Audiodatei (File-Typ)⚠️ Hinweis: Beim Testen mit Apifox oder ähnlichen Tools:
  1. Ändern Sie nach dem Import den Typ dieses Parameters manuell auf file
  2. Stellen Sie sicher, dass der Content-Type der Anfrage multipart/form-data ist
Unterstützte Formate: mp3, mp4, mpeg, mpga, m4a, wav, webmMaximale Dateigröße: 25 MB
model
string
Standard:"whisper-1"
erforderlich
Name des SpracherkennungsmodellsBeispiel: "whisper-1"
language
string
Sprachcode des Audios (Format ISO-639-1)Die Angabe der Sprache kann die Genauigkeit und Geschwindigkeit verbessernUnterstützte Sprachen sind unter anderem: zh (Chinesisch), en (Englisch), ja (Japanisch), ko (Koreanisch) und 99 weitere SprachenBeispiel: "en"
prompt
string
Optionaler Text-Prompt, um den Transkriptionsstil zu steuern oder an vorheriges Audio anzuknüpfenMaximal 224 Tokens
response_format
string
Standard:"json"
AusgabeformatUnterstützte Formate:
  • json – JSON-Format (nur Text)
  • text – reiner Text
  • srt – SRT-Untertitelformat
  • verbose_json – ausführliches JSON-Format (mit Zeitstempeln und Metadaten)
  • vtt – WebVTT-Untertitelformat
temperature
number
Standard:"0"
Sampling-Temperatur, Bereich 0 bis 1Höhere Werte (z. B. 0,8) machen die Ausgabe zufälliger, niedrigere Werte (z. B. 0,2) machen sie deterministischer und konsistenter

Antwort

text
string
Transkribierter Textinhalt
task
string
Aufgabentyp, fest auf transcribe gesetztWird nur im Format verbose_json zurückgegeben
language
string
Erkannter oder angegebener SprachcodeWird nur im Format verbose_json zurückgegeben
duration
number
Audio-Dauer (Sekunden)Wird nur im Format verbose_json zurückgegeben
segments
array
Array von TextsegmentenWird nur im Format verbose_json zurückgegeben