언어모델 관리하기
이 문서에서는 언어모델을 학습하고 삭제하는 방법을 안내합니다.
- 언어모델 학습은 텍스트 코퍼스 파일 업로드 후 언어모델 학습을 진행할 수 있습니다.
- 언어모델 학습에는 약 2-30분이 소요됩니다.
- 학습이 완료되면 Beta 서버 배포 후 테스트 할 수 있습니다.
- 배포 관리 메뉴는 도메인 상세 페이지 상단 배포 관리 버튼을 통해 진입 할 수 있습니다.
- 사용하지 않는 언어모델은 삭제할 수 있습니다. 단, 현재 배포 중인 모델 바로 직전에 배포되었던 언어모델은 삭제할 수 없습니다.
새 언어모델 만들기 시작
Step 1. 언어모델 목록에서 새 언어모델 만들기 클릭
도메인 상세 페이지의 언어모델 목록에서 [새 언어모델 만들기] 버튼을 클릭하면 새 언어모델 만들기 페이지로 진입할 수 있습니다.
이미지 콘솔 Speech to Text 페이지
Step 2. 서비스 에이전트 발급
Custom STT 서비스 이용을 위해서는 동일한 프로젝트의 Object Storage 접근이 필요합니다.
Speech to Text 서비스 에이전트 발급을 통해 이 권한을 이용할 수 있습니다.
- Speech to Text 서비스에서 서비스 에이전트 발급은 첫 언어모델을 만들 때 발급받을 수 있습니다.
- 한 번 만든 서비스 에이전트는 이후 서비스를 이용하는 동안 계속 유효합니다.
- 발급한 서비스 에이전트는 해당 프로젝트의 IAM 관리화면에서 확인할 수 있습니다.
이미지 콘솔 Speech to Text 페이지
Step 3. 언어모델 정보 입력
1단계 : 모델 정보 입력 페이지에서 필요한 내용을 입력하고 [다음] 버튼을 클릭합니다.
이미지 콘솔 Speech to Text 페이지
항목 | 필수 여부 | 설명 |
---|---|---|
모델 이름 | 필수 | 언어모델 이름 - 영어 소문자, 숫자, - 만 사용 가능-4~20자 이내의 길이로 작성 - 영어 소문자로 시작 - - 로 끝날 수 없음 |
설명 | 선택 | 언어모델을 구별할 수 있는 설명 입력 |
텍스트 코퍼스 가져오기
텍스트 코퍼스 (Text Corpus) 란?
텍스트 코퍼스(Text Corpus)는 언어 모델을 학습시키는데 필요한 말뭉치입니다.
- 음성 인식을 원하는 문장이나 키워드의 학습을 통해 음성 인식률을 높일 수 있습니다.
- 고유 명사, 분야별 특화 용어, 길고 복잡한 키워드, 또는 음성 인식 대상과 유사한 스크립트 전문을 그대로 활용할 수도 있습니다.
자세한 설명은 Overview를 참고하시기 바랍니다.
사전 준비
텍스트 코퍼스 구성을 위한 파일은 Object Storage에 먼저 업로드하신 후에 가져올 수 있습니다.
- Speech to Text 서비스 이용 시작 전에 Object Storage를 이용 중이어야 합니다.
- 학습시키려는 Speech to Text 서비스의 AI 도메인과 동일한 프로젝트 권한으로 접근 가능한 Object Storage에 업로드된 파일만 사용할 수 있습니다.
안내
Object Storage 이용 요금은 별도 과금됩니다.
Step 1. Object Stroage 서비스 진입
2단계 : 텍스트 코퍼스 파일 업로드 페이지에서 [Object Storage 바로가기] 링크를 클릭하면 Object Storage 서비스로 연결됩니다.
이미지 콘솔 Speech to Text 페이지
Step 2. Object Storage 페이지에서 텍스트 코퍼스 파일 위치로 이동
- 텍스트 코퍼스 구성을 위한 파일을 불러오기 위해서는 Object Storage에 어떤 위치에 업로드 되어 있는지 확인을 해야 합니다.
- Object Storage 내의 위치는 버킷과 폴더 경로 (prefix) 를 조합하여 특정할 수 있습니다.
Object Storage 서비스에서 텍스트 코퍼스 구성을 위한 파일이 담긴 위치로 이동합니다. 원하는 파일명 우측의 [더보기] 아이콘을 클릭한 후 팝업 메뉴에서 [파일 정보] 버튼을 클릭합니다.
이미지 콘솔 Object Storage 페이지
Step 3. Object Storage 버킷과 폴더 경로 (prefix) 복사
파일 정보 팝업창에서 상대 경로 우측 [URL 복사] 버튼을 클릭하여 파일의 경로를 클립보드에 복사합니다.
이미지 콘솔 Object Storage 페이지
복사된 파일 경로 정보에서 버킷과 폴더 경로를 각각 알아낼 수 있습니다.
(예)
https://objectstorage.kr-central-1.kakaoi.io/v1/{프로젝트 ID}/speech-to-text/text-corpus/2nd-depth/3rd/
항목 | 값 |
---|---|
버킷 | speech-to-text |
폴더 경로 (prefix) | text-corpus/2nd-depth/3rd/ |
Step 4. Custom STT 페이지에 버킷과 폴더 경로 (Prefix) 붙여넣기
2단계 : 텍스트 코퍼스 파일 업로드 페이지에서 텍스트 코퍼스 파일이 저장되어 있는 Object Storage 버킷 이름과 폴더 경로(Prefix)를 입력하고, [불러오기] 버튼을 클릭합니다.
이미지 콘솔 Speech to Text 페이지
- Object Storage 서비스에서 확인한 불러올 파일이 있는 위치의 버킷, 폴더 정보를 Custom STT 콘솔 화면의 텍스트 박스에 붙여넣기 합니다.
- 버킷, 폴더경로 모두 입력 후 불러오기 버튼을 누르면 해당 위치에 있는 파일들의 리스트가 콘솔 화면에 순차적으로 노출됩니다.
- 파일은 한 번에 최대 100개, 총 1GB 까지 가져올 수 있고, 각 파일은 최대 1GB까지 가능합니다.
안내
폴더 안에 들어있는 파일이 100개를 초과하거나 파일들의 총용량 또는 개별 파일의 용량이 1GB 초과시 이 작업을 완료할 수 없습니다.
Object Storage로 돌아가서 해당 경로에 위치한 파일들을 조건에 맞게 정리한 다음 Custom STT 콘솔에서 파일 가져오기를 시도해야 합니다.
Step 5. 업로드할 파일 선택
성공적으로 불러오기 완료된 파일 중 학습용으로 실제 사용할 파일만 선택한 후, [다음] 버튼을 클릭합니다.
이미지 콘솔 Speech to Text 페이지
- Object Storage에서 불러오기 과정에서
- 텍스트 코퍼스 파일 조건에 맞지 않는 경우 1차적으로 콘솔에서 자동으로 분류되어 비활성화된 체크박스로 표현됩니다.
- 성공적으로 불러온 파일은 용량이 노출됩니다.
- 체크박스의 클릭 혹은 해제를 통하여 불러온 파일 중에서 학습용으로 사용할 파일을 선택 혹은 제외할 수 있습니다.
- 페이지 하단 ‘다음’ 버튼 클릭시, 파일 리스트에서 체크박스로 선택된 파일들만 최종 학습에 반영됩니다.
언어모델 학습 실행
Step 1. 학습 시작
Step 5를 실행하면 학습 시작 안내 모달이 팝업되며, 모달에서 [확인] 버튼을 클릭하면 실제 언어모델 학습 과정이 시작됩니다.
- 학습 시간은 2-30분 정도 소요됩니다.
이미지 콘솔 Speech to Text 페이지
Step 2. 학습 진행 현황 확인
학습 진행 현황은 도메인 상세 페이지 내 언어모델 리스트 테이블의 학습 상태 칼럼에서 확인 가능합니다.
이미지 콘솔 Speech to Text 페이지
표 학습 상태값
상태값 | 설명 |
---|---|
🟡 대기중 | 이미 학습이 진행되고 있는 다른 언어모델이 있어서 학습을 대기중인 상태입니다. - 학습 가능한 상태가 되면 자동으로 학습이 시작되며, 상태값이 ‘학습중’으로 업데이트 됩니다. |
🟢 학습중 | 학습이 진행중입니다. (2-30분 소요) - 브라우저를 새로고침하면 전체에서 총 몇 단계까지 진행 되었는지 확인 가능합니다. - 학습중인 언어모델은 삭제할 수 없습니다. - 언어모델 학습 중단을 원하면, 학습 중단 버튼을 클릭해주세요. |
⚪️ 학습 완료 | 학습이 완료되어 Beta 서버에 배포할 수 있는 상태입니다. - 모델 학습 완료 후 배포를 해야 테스트 메뉴를 이용할 수 있습니다. |
🔴 학습 중단 | 학습중 상태에서 사용자가 임의로 학습을 중단시킨 상태입니다. - 학습 중단된 모델은 삭제만 가능합니다. |
🔴 오류 발생 | 오류가 발생한 경우 서비스 개발팀에서 해당 모델의 학습을 ‘학습 완료’ 상태로 업데이트 할 예정입니다. (최대 1일 소요) - 이와 관련하여 다른 문의사항이 있으시면 고객센터로 연락 바랍니다. |
언어모델 삭제하기
더 이상 사용하지 않는 언어모델을 삭제할 수 있습니다.
주의
현재 배포 중이거나, 현재 배포 중인 모델 바로 직전에 배포되었던 언어모델은 삭제할 수 없습니다.
- 카카오 i 클라우드 콘솔에서 이동할 프로젝트를 선택한 후, AI Service > Speech to Text 메뉴를 선택합니다.
- 도메인 목록에서 [도메인 상세] 버튼을 클릭하여 도메인 상세 페이지로 진입합니다.
- 언어모델 목록 페이지에서 더보기 버튼을 누르고, [언어모델 삭제] 버튼을 클릭합니다.