오디오 시리즈
Whisper-1 오디오 변환
- 99개 언어의 음성 인식 지원
- 다양한 출력 형식: json, text, srt, vtt 등
- 최대 파일 크기 25 MB
POST
Documentation Index
Fetch the complete documentation index at: https://docs.apimart.ai/llms.txt
Use this file to discover all available pages before exploring further.
Authorizations
요청 본문
⚠️ 이 엔드포인트는 온라인 테스트(Try it)를 지원하지 않습니다파일 업로드 제한으로 인해 다음 방법으로 테스트하세요:
- Apifox / Postman - 가져온 후
file매개변수를 수동으로 파일 타입으로 변경 - cURL - 오른쪽 코드 예제 참조
- SDK - 각 언어의 SDK 예제 코드 사용
변환할 오디오 파일 (파일 타입)⚠️ 참고: Apifox 등의 도구로 테스트할 때:
- 가져온 후 이 매개변수 타입을 수동으로
file로 변경하세요 - 요청 Content-Type이
multipart/form-data인지 확인하세요
음성 인식 모델 이름예:
"whisper-1"오디오의 언어 코드 (ISO-639-1 형식)언어를 지정하면 정확도와 속도가 향상됩니다지원 언어: zh (중국어), en (영어), ja (일본어), ko (한국어) 등 99개 언어예:
"ko"변환 스타일을 안내하기 위한 선택적 텍스트 프롬프트최대 224 토큰
출력 형식지원 형식:
json- JSON 형식 (텍스트만)text- 일반 텍스트srt- SRT 자막 형식verbose_json- 상세 JSON 형식 (타임스탬프 및 메타데이터 포함)vtt- WebVTT 자막 형식
샘플링 온도, 범위 0~1높은 값 (0.8 등)은 출력을 더 무작위로 만들고, 낮은 값 (0.2 등)은 더 확정적이고 일관되게 만듭니다
Response
변환된 텍스트 내용
작업 유형,
transcribe로 고정verbose_json 형식에서만 반환됩니다감지되거나 지정된 언어 코드verbose_json 형식에서만 반환됩니다
오디오 길이 (초)verbose_json 형식에서만 반환됩니다
텍스트 세그먼트 배열verbose_json 형식에서만 반환됩니다