General TTS API

페이지 이동경로

General TTS

카카오 i 클라우드의 General TTS API는 사용자가 입력한 텍스트를 음성으로 변환(Text to Speech)합니다. General TTS API를 호출하여 별도의 학습용 데이터 수집과 모델 학습 없이 카카오엔터프라이즈의 음성 합성 엔진을 사용할 수 있습니다.

API 제공 기능

General TTS API는 Plain Voice와 Deep Voice의 두 가지 음성 합성 엔진을 제공합니다. Plain Voice는 전통적인 합성 방식의 모델을 이용하는 엔진으로, 녹음된 음성 데이터를 기반으로 사전에 정의된 음성 합성 단위를 연결하여 음성을 합성합니다. Deep Voice는 딥러닝 방식으로 학습된 모델을 이용하여 사람이 말하는 것과 같이 보다 자연스러운 음성을 합성합니다.

또한, SSML(Speech Synthesis Markup Language)을 지원하여, 합성 음성의 음조나 읽기 방식, 톤을 조절할 수 있습니다.

항목 설명
합성 방식 - Plain Voice: 사전에 녹음된 음성 데이터를 연결하여 합성
- Deep Voice: 딥러닝 방식으로 자연스러운 음성 합성
지원 목소리 수 - Plain Voice : 3종
- Deep Voice : 33종
- 자세한 설명은 지원하는 목소리 목록 참고
지원 언어 한국어
최대 입력 글자 수 최대 1000자, 한 문장 당 150자 이하를 권장함 (공백 및 구두점 포함)
입력 형식 XML (SSML)
출력 형식 Raw PCM, MP3
SSML 합성 음성의 음조, 읽기 방식, 톤 설정
- 자세한 사항은 SSML 가이드 참고

지원하는 목소리 목록

카카오 i 클라우드의 General TTS API가 제공하는 목소리는 총 33종으로, 합성 엔진에 따라 사용 가능한 목소리 목록이 상이합니다. Deep Voice 합성 엔진은 딥러닝 방식으로 보다 다양한 목소리를 제공하고 있습니다.

  • 카카오엔터프라이즈 대표 목소리: 카카오엔터프라이즈 서비스에서 사용하는 목소리
  • 키즈 목소리: 어린이 목소리
  • 정보 전달용 목소리: 뉴스 등의 전문적인 정보 전달에 적합한 목소리
  • 콜센터용 목소리: 문장 앞, 뒤 묵음이 짧아 빠른 응답이 가능한 목소리
  • 일반 목소리: 책 읽기, 안내 등 일반적인 텍스트 합성에 적합한 목소리

아래 표에서 목소리 별 지원 엔진 및 미리 듣기 샘플을 확인하시기 바랍니다.

카카오엔터프라이즈 대표 목소리

카카오엔터프라이즈 서비스에서 사용하는 목소리입니다.

카카오엔터프라이즈 대표 목소리

음색 이름 지원 엔진 설명 샘플 음원
Anna Deep Voice 카카오엔터프라이즈 커넥트 센터 여성 목소리
Bentley Deep Voice 카카오엔터프라이즈 커넥트 센터 남성 목소리
Cameron Deep Voice 카카오엔터프라이즈 커넥트 센터 여성 목소리
Cooper Deep Voice 카카오엔터프라이즈 커넥트 센터 남성 목소리
Kai Plain Voice, Deep Voice 카카오 i에서 사용되는 키즈 캐릭터 목소리
Roman Plain Voice, Deep Voice 카카오 i에서 사용되는 남성 목소리
Summer Plain Voice, Deep Voice 카카오 i에서 사용되는 여성 목소리

키즈 목소리

어린이 목소리입니다.

키즈 목소리

음색 이름 지원 엔진 설명 샘플 음원
Kai Plain Voice, Deep Voice 카카오 i에서 사용되는 키즈 캐릭터 목소리
Kane Deep Voice 남자아이 목소리
Kayla Deep Voice 여자아이 목소리
Kevin Deep Voice 남자아이 목소리
Kyle Deep Voice 남자아이 목소리

정보 전달용 목소리

뉴스 등의 전문적인 정보 전달에 적합한 목소리입니다.

정보 전달용 목소리

음색 이름 지원 엔진 설명 샘플 음원
Nathan Deep Voice 남성 목소리
Nolan Deep Voice 남성 목소리
Nora Deep Voice 여성 목소리

콜센터용 목소리

다른 목소리에 비해 문장 앞, 뒤 묵음이 짧아 빠른 응답이 가능한 목소리입니다.

콜센터용 목소리

음색 이름 지원 엔진 설명 샘플 음원
Anna_Call Deep Voice 여성 목소리
Bentley_Call Deep Voice 남성 목소리
Cameron_Call Deep Voice 여성 목소리
Carter_Call Deep Voice 남성 목소리
Casey_Call Deep Voice 여성 목소리
Chase_Call Deep Voice 남성 목소리
Claire_Call Deep Voice 여성 목소리
Clara_Call Deep Voice 여성 목소리
Cooper_Call Deep Voice 남성 목소리
Cora_Call Deep Voice 여성 목소리

일반 목소리

책 읽기, 안내 등 일반적인 텍스트 합성에 적합한 목소리입니다.

일반 목소리

음색 이름 지원 엔진 설명 샘플 음원
Anna Deep Voice 카카오엔터프라이즈 커넥트 센터 여성 목소리
Bentley Deep Voice 카카오엔터프라이즈 커넥트 센터 남성 목소리
Cameron Deep Voice 카카오엔터프라이즈 커넥트 센터 여성 목소리
Carter Deep Voice 남성 목소리
Casey Deep Voice 여성 목소리
Chase Deep Voice 남성 목소리
Claire Deep Voice 여성 목소리
Clara Deep Voice 여성 목소리
Cooper Deep Voice 카카오엔터프라이즈 커넥트 센터 남성 목소리
Cora Deep Voice 여성 목소리
Daisy Deep Voice 여성 목소리
Dakota Deep Voice 여성 목소리
David Deep Voice 남성 목소리
Dax Deep Voice 남성 목소리
Dean Deep Voice 남성 목소리
Della Deep Voice 여성 목소리
Demi Deep Voice 여성 목소리
Diana Deep Voice 여성 목소리
Dorothy Deep Voice 여성 목소리
Dream Deep Voice 여성 목소리
Elias Deep Voice 남성 목소리
Emily Deep Voice 여성 목소리
Emma Deep Voice 여성 목소리
Roman Plain Voice, Deep Voice 카카오 i에서 사용되는 남성 목소리
Summer Plain Voice, Deep Voice 카카오 i에서 사용되는 여성 목소리

지원하는 문자 코드

문자 인코딩 방식은 UTF-8을 따릅니다.

영문 알파벳, 한글 음절 및 자모, 숫자 및 숫자 포함 문자열, 이메일 및 URL, 기호, 문장 부호를 처리하여 읽어줍니다.

안내
텍스트 정규화 규칙은 합성 음성의 품질 향상을 위해 사전 고지 없이 변경될 수 있습니다.

항목 설명 예시
영문 알파벳 개별 알파벳 처리 가능 a → 에이
b → 비
한글 음절 및 자모 음절(초성과 중성, 혹은 초성, 중성과 종성으로 구성된 단위) 처리를 원칙으로 함
- 자모 낱자는 이름으로 읽음
- 자주 쓰이는 일부 초성 문자는 예외적으로 처리하여 읽음
ㄴ ex. ㅎㅎ, ㅋㅋ, ㅇㅋ, ㄴㄴ, ㅃㅇ, ㅎㅇ
ㄱ → 기역
ㅏ → 아
ㄷㄷ → 디귿디귿
ㅋㅋ → 크크
한국어 한자 한국에서 쓰이는 한자
- 중국, 일본에서 사용하는 간체는 처리하지 않음
- 음성 합성 엔진이 Deep Voice일 경우만 지원
漢字는 外國 文字인가? → 한자는 외국 문자인가?
前 韓國外交協會 會長 → 전 한국외교협회 회장
韓國漢詩協會 理事長 → 한국한시협회 이사장
本聯合會 顧問 → 본연합회 고문
숫자 및 숫자 포함 문자열 숫자 읽기 처리
- 전화번호로 판단되는 형식: 전화번호로 읽음
- 날짜 혹은 시간으로 판단되는 형식: 날짜 또는 시간으로 읽음
- 도량형 표기로 판단되는 형식: 도량형 단위로 읽음
- 영어 뒤에 오는 숫자는 영어로, 한글 뒤에 오는 숫자는 한글로 읽음
1987 → 천구백팔십칠
02-1234-5678 → 공이에 일이삼사에 오육칠팔
2017/7/5 → 이천십칠년 칠월 오일
a.m. 7시 → 오전 일곱시
10cm → 십센티미터
100Hz → 백헤르쯔
시즌1 → 시즌원
안녕1 → 안녕일
이메일 및 URL 이메일이나 URL 형식의 문자열
- 각각 “이메일 주소” 혹은 “링크”로 치환하여 읽음
contact@kakaoenterprise.com → 이메일 주소
https://kakaoicloud.com → 링크
기호 - Printable ASCII 코드에 포함된 특수기호: 문맥에 따라 읽거나 읽지 않음
- UTF-8 유니코드 중 자주 쓰이는 도량형 기호를 읽어줌
- 괄호 내부 문자는 일반적으로 읽지 않으나, 뉴스 바이라인 형식으로 판단하는 경우 괄호 내 문자를 읽어줌
100% → 백퍼센트
$100 → 백달러
100㎛ → 백마이크로미터
문장 부호 쉼표(,), 마침표(.), 느낌표(!), 물음표(?), 아포스트로피(’), 큰따옴표(”), 작은따옴표(’), 붙임표(-) 처리
- , : 문장 내 끊어 읽기
- - ., ?, ! : 억양과 길이 조절
 

합성 텍스트 작성 시 유의 사항

음성 합성 결과의 품질을 높이기 위한 유의 사항은 아래와 같습니다.

  • 맞춤법과 띄어쓰기를 바르게 적용합니다. 맞춤법과 띄어쓰기를 바르게 적용하면 엔진의 문장 구조 파악이 용이하며, 끊어 읽기 오류를 방지할 수 있습니다. 이를 통해 보다 자연스러운 합성음을 생성할 수 있습니다.
  • 쉼표(,)와 마침표(.) 등의 문장부호를 적절히 사용합니다. 특히 쉼표를 사용하면 끊어 읽기를 유도할 수 있습니다. 올바른 텍스트 처리를 위해서는 쉼표 사용 후 한 칸 띄어쓰기를 적용해야 합니다.
    • 이번 주 당첨 번호는 22,33,44,55,66,77입니다. (X)
    • 이번 주 당첨 번호는 22, 33, 44, 55, 66, 77입니다. (O)
  • 의도대로 합성되지 않는 텍스트는 SSML의 <sub> 태그를 사용하여 발음을 직접 지정할 수 있습니다. 자세한 설명은 SSML 가이드를 참고하시기 바랍니다.