Saltar al contenido principal
POST
/
v1
/
audio
/
transcriptions
curl --request POST \
  --url https://api.apimart.ai/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form 'file=@/path/to/audio.mp3' \
  --form 'model=whisper-1' \
  --form 'language=en' \
  --form 'response_format=json'
{
  "text": "This is a transcribed text from the test audio."
}

Documentation Index

Fetch the complete documentation index at: https://docs.apimart.ai/llms.txt

Use this file to discover all available pages before exploring further.

curl --request POST \
  --url https://api.apimart.ai/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form 'file=@/path/to/audio.mp3' \
  --form 'model=whisper-1' \
  --form 'language=en' \
  --form 'response_format=json'
{
  "text": "This is a transcribed text from the test audio."
}

Autorizaciones

Authorization
string
requerido
Todas las interfaces requieren autenticación mediante Bearer TokenObtener API Key:Visite la página de gestión de API Keys para obtener su API KeyAñádala al encabezado de la solicitud:
Authorization: Bearer YOUR_API_KEY

Body

⚠️ Las pruebas en línea (Try it) no se admiten en este endpointDebido a las limitaciones en la subida de archivos, pruebe utilizando:
  • Apifox / Postman - Cambie manualmente el parámetro file a tipo archivo tras la importación
  • cURL - Consulte los ejemplos de código a la derecha
  • SDK - Utilice los ejemplos de SDK en distintos lenguajes
file
string
requerido
Archivo de audio a transcribir (tipo File)⚠️ Nota: Al probar con Apifox o herramientas similares:
  1. Después de importar, cambie manualmente el tipo de este parámetro a file
  2. Asegúrese de que el Content-Type de la solicitud sea multipart/form-data
Formatos admitidos: mp3, mp4, mpeg, mpga, m4a, wav, webmTamaño máximo del archivo: 25 MB
model
string
predeterminado:"whisper-1"
requerido
Nombre del modelo de reconocimiento de vozEjemplo: "whisper-1"
language
string
Código de idioma del audio (formato ISO-639-1)Especificar el idioma puede mejorar la precisión y la velocidadLos idiomas admitidos incluyen: zh (chino), en (inglés), ja (japonés), ko (coreano) y otros 99 idiomasEjemplo: "en"
prompt
string
Prompt de texto opcional para guiar el estilo de transcripción o continuar desde un audio previoMáximo 224 tokens
response_format
string
predeterminado:"json"
Formato de salidaFormatos admitidos:
  • json - Formato JSON (solo texto)
  • text - Texto plano
  • srt - Formato de subtítulo SRT
  • verbose_json - Formato JSON detallado (incluye timestamps y metadatos)
  • vtt - Formato de subtítulo WebVTT
temperature
number
predeterminado:"0"
Temperatura de muestreo, rango 0 a 1Valores más altos (como 0.8) hacen la salida más aleatoria; valores más bajos (como 0.2) la hacen más determinística y consistente

Respuesta

text
string
Contenido del texto transcrito
task
string
Tipo de tarea, fijado como transcribeSolo se devuelve en formato verbose_json
language
string
Código de idioma detectado o especificadoSolo se devuelve en formato verbose_json
duration
number
Duración del audio (segundos)Solo se devuelve en formato verbose_json
segments
array
Array de segmentos de textoSolo se devuelve en formato verbose_json