General STT
카카오 i 클라우드의 General STT API는 사용자가 입력한 음성을 텍스트로 변환(Speech to Text)하여 반환합니다. General STT API를 사용하여 별도의 학습 데이터 수집 및 모델 학습 없이, 카카오엔터프라이즈에서 보유한 음성 인식 모델을 API로 호출하여 사용할 수 있습니다.
API 제공 기능
General STT API는 웹소켓(Websocket) 통신 방식을 지원하며, 단문(최대 15초) 및 장문(이어 말하기, 최대 1시간) 의 두 가지 음성 인식 모드를 지원합니다.
단문 모드는 한 문장을 기준으로 음성 인식을 하는 모드이며, 장문(이어 말하기) 모드는 여러 문장의 음성 인식을 지원합니다. 샘플레이트의 경우, 8kHz와 16kHz 두 가지를 지원합니다.
안내
샘플레이트는 음성 인식을 원하는 음성 파일의 샘플레이트에 맞추어 선택합니다. - 보유한 음원의 샘플레이트가 16kHz 이상이라면 16kHz로 리샘플링하여, 16kHz 샘플레이트로 요청하시는 것이 좋습니다.
- 콜센터 전산망을 통해 획득된 음원은 대부분 16kHz에서 8kHz로 변환하여 저장됩니다. 따라서 8kHz 샘플레이트로 요청하시는 것이 적합합니다.
표 API 지원 사양
구분 | 상세 | 설명 |
---|---|---|
통신 방식 | Websocket | 지원 |
HTTP | 미지원 | |
오디오 포맷 | bit depth | 16bit |
channel | 1ch (mono) | |
코덱 | RAWPCM, MP3 | |
샘플레이트 | 8kHz, 16kHz | |
음성 인식 모드 | 단문 | 한 문장만 음성 인식 가능 - 발화 종료를 인식하면 음성 인식이 종료됨 - 최대 15초 길이의 음성 인식 - 용도: 음성 검색 등 |
장문(이어말하기) | 여러 문장 음성 인식 가능 - 음성 인식 종료 요청이 있기까지 계속 음성 인식 대기 - 발화 시작 시점과 종료 시점 사이의 음성 구간을 하나의 문장으로 인식 - 최대 1시간 길이의 음성 인식 - 용도: 고객센터 음성 데이터 변환, 회의록, 음성 메모 등 |