Saltar para o conteúdo principal
POST
/
v1
/
audio
/
transcriptions
curl --request POST \
  --url https://api.apimart.ai/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form 'file=@/path/to/audio.mp3' \
  --form 'model=whisper-1' \
  --form 'language=en' \
  --form 'response_format=json'
{
  "text": "This is a transcribed text from the test audio."
}

Documentation Index

Fetch the complete documentation index at: https://docs.apimart.ai/llms.txt

Use this file to discover all available pages before exploring further.

curl --request POST \
  --url https://api.apimart.ai/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form 'file=@/path/to/audio.mp3' \
  --form 'model=whisper-1' \
  --form 'language=en' \
  --form 'response_format=json'
{
  "text": "This is a transcribed text from the test audio."
}

Autorizações

Authorization
string
obrigatório
Todas as interfaces exigem autenticação por Bearer TokenObtenha sua chave de API:Acesse a página de gerenciamento de chaves de API para obter sua chave de APIAdicione-a ao cabeçalho da requisição:
Authorization: Bearer YOUR_API_KEY

Body

⚠️ Testes online (Try it) não são suportados neste endpointDevido a limitações de upload de arquivos, faça testes usando:
  • Apifox / Postman - Após importar, altere manualmente o parâmetro file para o tipo arquivo
  • cURL - Consulte os exemplos de código à direita
  • SDK - Use os exemplos de SDK em diversas linguagens
file
string
obrigatório
Arquivo de áudio a transcrever (tipo File)⚠️ Nota: Ao testar com Apifox ou ferramentas similares:
  1. Após importar, altere manualmente o tipo deste parâmetro para file
  2. Garanta que o Content-Type da requisição seja multipart/form-data
Formatos suportados: mp3, mp4, mpeg, mpga, m4a, wav, webmTamanho máximo do arquivo: 25 MB
model
string
padrão:"whisper-1"
obrigatório
Nome do modelo de reconhecimento de falaExemplo: "whisper-1"
language
string
Código do idioma do áudio (formato ISO-639-1)Especificar o idioma pode melhorar a precisão e a velocidadeOs idiomas suportados incluem: zh (chinês), en (inglês), ja (japonês), ko (coreano) e outros 99 idiomasExemplo: "en"
prompt
string
Prompt de texto opcional para orientar o estilo da transcrição ou dar continuidade a um áudio anteriorMáximo de 224 tokens
response_format
string
padrão:"json"
Formato de saídaFormatos suportados:
  • json - formato JSON (apenas texto)
  • text - texto simples
  • srt - formato de legenda SRT
  • verbose_json - formato JSON detalhado (inclui timestamps e metadados)
  • vtt - formato de legenda WebVTT
temperature
number
padrão:"0"
Temperatura de amostragem, faixa de 0 a 1Valores mais altos (como 0.8) tornam a saída mais aleatória; valores mais baixos (como 0.2) a tornam mais determinística e consistente

Resposta

text
string
Conteúdo do texto transcrito
task
string
Tipo da tarefa, fixado em transcribeRetornado apenas no formato verbose_json
language
string
Código do idioma detectado ou especificadoRetornado apenas no formato verbose_json
duration
number
Duração do áudio (segundos)Retornado apenas no formato verbose_json
segments
array
Array de segmentos de textoRetornado apenas no formato verbose_json