Data Catalog

페이지 이동경로

Data Catalog

Data Catalog는 카카오 i 클라우드 내에 저장되어 있는 조직과 사용자 데이터 자산을 파악하고, 데이터 자산을 효율적으로 관리할 수 있도록 도와주는 완전 관리형 서비스로, 카카오 i 클라우드의 VPC(Virtual Private Cloud) 환경에서 제공됩니다. 즉, Data Catalog는 조직에 구성된 데이터 자산 인벤토리이며, 조직의 다양한 데이터를 메타데이터화하여 데이터 자산을 저장 및 관리하는 중앙 리포지토리입니다.

이를 위해, 사용자는 자신이 소유한 데이터를 테이블 형태로 정의하고 데이터의 저장 경로 및 속성 등을 추가로 등록하고 관리할 수 있습니다. 사용자가 Data Catalog를 이용해서 데이터 자산을 한곳에서 관리하면 데이터를 더욱 효과적으로 관리할 수 있게 되고 이는 운영의 효율성 증가시킬 뿐만 아니라 데이터 관리 비용 또한 절감할 수 있게 합니다.

Data Catalog 서비스의 주요 개념

주요 개념 설명
카탈로그 VPC에 속한 카탈로그로 데이터베이스의 집합
데이터베이스 테이블을 저장하는 컨테이너
테이블 사용자의 메타데이터

주요 개념

Data Catalog 서비스의 주요 개념은 다음과 같습니다.

카탈로그

카탈로그는 Data Catalog에서 사용자 데이터의 메타데이터를 저장하고 관리하는 중앙 리포지토리입니다.

  • 사용자 네트워크가 다른 카탈로그 간에는 메타데이터가 공유되지 않습니다.
  • Data Catalog를 활성화하면 사용자는 VPC(Subnet)를 지정해서 카탈로그를 생성할 수 있습니다.
  • 카탈로그는 고가용성(HA)으로 운영됩니다.
  • 사용자는 카탈로그에 소유한 데이터의 테이블 정의와 저장 경로 같은 메타데이터를 저장하고, 수정하며, 삭제할 수 있습니다.
  • 카탈로그는 Apache Hive Metastore와 호환됩니다.

데이터베이스

Data Catalog의 데이터베이스는 테이블을 저장하는 컨테이너입니다.

  • 데이터베이스는 메타데이터 테이블을 구성하는 데 사용됩니다.
  • 테이블은 하나의 데이터베이스에만 속할 수 있습니다.
  • 카카오 i 클라우드 콘솔의 데이터베이스 목록에서는 프로젝트에 속한 모든 데이터베이스를 볼 수 있습니다.

테이블

Data Catalog에서 테이블은 데이터 스토어의 데이터를 표현하는 메타데이터입니다. 카카오 i 클라우드 콘솔에서 테이블을 생성할 수 있으며, 콘솔의 테이블 목록에는 테이블의 메타데이터 값이 표시됩니다.

  • 테이블은 스키마, 파티션, 테이블 속성 등 하위 메타데이터를 포함합니다.
  • 테이블을 수동으로 생성하고 테이블 정보를 수정할 수 있습니다.
  • 데이터 카탈로그를 Hadoop Eco의 메타스토어로 사용하는 경우, 마이그레이션된 테이블의 정보도 수정할 수 있습니다.

리소스 상태 정보와 생명주기

Data Catalog에서 상태를 확인할 수 있는 리소스는 카탈로그, 데이터베이스, 테이블입니다. 카탈로그를 생성하면 사용자 소유에 대한 데이터 자산의 메타데이터를 저장하고 관리하는 중앙 리포지토리를 생성합니다. (생성에는 약 10분정도가 소요됩니다.) 카탈로그는 완전 관리형 중앙 리포지토리로 운영 상태와 종료 상태를 포함하는 다양한 상태값을 가지며, 사용자는 이를 확인하여 카탈로그의 현재 상태를 파악하고 할 수 있습니다.

리소스 별 상태 정보는 다음과 같습니다.

이미지 이미지 카탈로그의 생명 주기

카탈로그의 상태

상태 설명 분류
INIT 카탈로그 생성 직후 상태 Orange
PROVISIONING Catalog가 사용할 VM을 생성하는 상태 Orange
RUNNING Catalog가 실행중이며 사용 가능한 상태 Green
FATAL Catalog에 오류가 발생하여 복구 불가능한 상태 Red
TERMINATING Catalog를 종료하기 위해서 하드웨어 리소스를 반납하는 상태 Orange
TERMINATED Catalog가 종료되어 사용할 수 없는 상태 Grey

데이터베이스와 테이블의 상태

데이터베이스와 테이블은 생성, 수정, 삭제 동작에 의해 상태가 변하고, 각각의 상태에 의해서 관리됩니다. 상태는 데이터베이스와 테이블의 동작에 영향을 미치며, 상태에 따라 다음 동작에 영향을 받습니다. 테이블은 스스로 상태를 소유할 뿐만 아니라 데이터베이스의 상태에도 영향을 받습니다. 예를 들어, 테이블은 데이터베이스가 ACTIVE 또는 ALTERING 상태인 경우에만 생성되거나 수정될 수 있습니다.

데이터베이스와 테이블의 상태

상태 설명 분류
CREATING Database, Table 생성 중 Orange
ALTERING Database, Table 수정 중 Orange
DELETING Database, Table 삭제 중 Orange
ACTIVE Database, Table 사용 가능 Green
INACTIVE Database, Table 사용 불가 Orange

사용 가이드

안내
카카오 i 클라우드의 Data Catalog 서비스에 대한 자세한 가이드는 Data Catalog > How-to Guides를 참고하시기 바랍니다.

Data Catalog 사용 가이드

문서 설명
카탈로그 만들기 카탈로그를 만드는 방법을 설명합니다.
카탈로그 관리하기 카탈로그를 관리하는 방법을 설명합니다.
데이터베이스 만들기 데이터베이스를 만드는 방법을 설명합니다.
데이터베이스 관리하기 데이터베이스를 관리하는 방법을 설명합니다.
테이블 만들기 테이블을 만드는 방법을 설명합니다.
테이블과 테이블 내 데이터 관리하기 테이블과 테이블 내 데이터 관리하는 방법을 설명합니다.
Hadoop Eco와 연동 후 사용하기 Hadoop Eco와 연동하고 애플리케이션 사용하는 방법을 설명합니다.