Série de Áudio
Whisper-1 Transcrição de áudio
- Suporta reconhecimento de fala em 99 idiomas
- Múltiplos formatos de saída: json, text, srt, vtt, etc.
- Tamanho máximo de arquivo: 25 MB
POST
Documentation Index
Fetch the complete documentation index at: https://docs.apimart.ai/llms.txt
Use this file to discover all available pages before exploring further.
Autorizações
Todas as interfaces exigem autenticação por Bearer TokenObtenha sua chave de API:Acesse a página de gerenciamento de chaves de API para obter sua chave de APIAdicione-a ao cabeçalho da requisição:
Body
⚠️ Testes online (Try it) não são suportados neste endpointDevido a limitações de upload de arquivos, faça testes usando:
- Apifox / Postman - Após importar, altere manualmente o parâmetro
filepara o tipo arquivo - cURL - Consulte os exemplos de código à direita
- SDK - Use os exemplos de SDK em diversas linguagens
Arquivo de áudio a transcrever (tipo File)⚠️ Nota: Ao testar com Apifox ou ferramentas similares:
- Após importar, altere manualmente o tipo deste parâmetro para
file - Garanta que o Content-Type da requisição seja
multipart/form-data
Nome do modelo de reconhecimento de falaExemplo:
"whisper-1"Código do idioma do áudio (formato ISO-639-1)Especificar o idioma pode melhorar a precisão e a velocidadeOs idiomas suportados incluem: zh (chinês), en (inglês), ja (japonês), ko (coreano) e outros 99 idiomasExemplo:
"en"Prompt de texto opcional para orientar o estilo da transcrição ou dar continuidade a um áudio anteriorMáximo de 224 tokens
Formato de saídaFormatos suportados:
json- formato JSON (apenas texto)text- texto simplessrt- formato de legenda SRTverbose_json- formato JSON detalhado (inclui timestamps e metadados)vtt- formato de legenda WebVTT
Temperatura de amostragem, faixa de 0 a 1Valores mais altos (como 0.8) tornam a saída mais aleatória; valores mais baixos (como 0.2) a tornam mais determinística e consistente
Resposta
Conteúdo do texto transcrito
Tipo da tarefa, fixado em
transcribeRetornado apenas no formato verbose_jsonCódigo do idioma detectado ou especificadoRetornado apenas no formato verbose_json
Duração do áudio (segundos)Retornado apenas no formato verbose_json
Array de segmentos de textoRetornado apenas no formato verbose_json