General STT API

페이지 이동경로

General STT

카카오 i 클라우드의 General STT API는 사용자가 입력한 음성을 텍스트로 변환(Speech to Text)하여 반환합니다. General STT API를 사용하여 별도의 학습 데이터 수집 및 모델 학습 없이, 카카오엔터프라이즈에서 보유한 음성 인식 모델을 API로 호출하여 사용할 수 있습니다.

API 제공 기능

General STT API는 웹소켓(Websocket) 통신 방식을 지원하며, 단문(최대 15초) 및 장문(이어 말하기, 최대 1시간) 의 두 가지 음성 인식 모드를 지원합니다. 단문 모드는 한 문장을 기준으로 음성 인식을 하는 모드이며, 장문(이어 말하기) 모드는 여러 문장의 음성 인식을 지원합니다. 샘플레이트의 경우, 8kHz와 16kHz 두 가지를 지원합니다.

샘플레이트는 음성 인식을 원하는 음성 파일의 샘플레이트에 맞추어 선택합니다.
- 보유한 음원의 샘플레이트가 16kHz 이상이라면 16kHz로 리샘플링하여, 16kHz 샘플레이트로 요청하시는 것이 좋습니다.
- 콜센터 전산망을 통해 획득된 음원은 대부분 16kHz에서 8kHz로 변환하여 저장됩니다. 따라서 8kHz 샘플레이트로 요청하시는 것이 적합합니다.

API 지원 사양

구분 상세 설명
통신 방식 Websocket 지원
  HTTP 미지원
오디오 포맷 bit depth 16bit
  channel 1ch (mono)
  코덱 RAWPCM, MP3
  샘플레이트 8kHz, 16kHz
음성 인식 모드 단문 한 문장만 음성 인식 가능
- 발화 종료를 인식하면 음성 인식이 종료됨
- 최대 15초 길이의 음성 인식
- 용도: 음성 검색 등
  장문(이어말하기) 여러 문장 음성 인식 가능
- 음성 인식 종료 요청이 있기까지 계속 음성 인식 대기
- 발화 시작 시점과 종료 시점 사이의 음성 구간을 하나의 문장으로 인식
- 최대 1시간 길이의 음성 인식
- 용도: 고객센터 음성 데이터 변환, 회의록, 음성 메모 등