Serie de audio
Transcripción de audio Whisper-1
- Admite reconocimiento de voz en 99 idiomas
- Múltiples formatos de salida: json, text, srt, vtt, etc.
- Tamaño máximo de archivo: 25 MB
POST
Documentation Index
Fetch the complete documentation index at: https://docs.apimart.ai/llms.txt
Use this file to discover all available pages before exploring further.
Autorizaciones
Todas las interfaces requieren autenticación mediante Bearer TokenObtener API Key:Visite la página de gestión de API Keys para obtener su API KeyAñádala al encabezado de la solicitud:
Body
⚠️ Las pruebas en línea (Try it) no se admiten en este endpointDebido a las limitaciones en la subida de archivos, pruebe utilizando:
- Apifox / Postman - Cambie manualmente el parámetro
filea tipo archivo tras la importación - cURL - Consulte los ejemplos de código a la derecha
- SDK - Utilice los ejemplos de SDK en distintos lenguajes
Archivo de audio a transcribir (tipo File)⚠️ Nota: Al probar con Apifox o herramientas similares:
- Después de importar, cambie manualmente el tipo de este parámetro a
file - Asegúrese de que el Content-Type de la solicitud sea
multipart/form-data
Nombre del modelo de reconocimiento de vozEjemplo:
"whisper-1"Código de idioma del audio (formato ISO-639-1)Especificar el idioma puede mejorar la precisión y la velocidadLos idiomas admitidos incluyen: zh (chino), en (inglés), ja (japonés), ko (coreano) y otros 99 idiomasEjemplo:
"en"Prompt de texto opcional para guiar el estilo de transcripción o continuar desde un audio previoMáximo 224 tokens
Formato de salidaFormatos admitidos:
json- Formato JSON (solo texto)text- Texto planosrt- Formato de subtítulo SRTverbose_json- Formato JSON detallado (incluye timestamps y metadatos)vtt- Formato de subtítulo WebVTT
Temperatura de muestreo, rango 0 a 1Valores más altos (como 0.8) hacen la salida más aleatoria; valores más bajos (como 0.2) la hacen más determinística y consistente
Respuesta
Contenido del texto transcrito
Tipo de tarea, fijado como
transcribeSolo se devuelve en formato verbose_jsonCódigo de idioma detectado o especificadoSolo se devuelve en formato verbose_json
Duración del audio (segundos)Solo se devuelve en formato verbose_json
Array de segmentos de textoSolo se devuelve en formato verbose_json