EyesCream & Lab

데이터 웨어하우스 - DW(Data Warehouse) 본문

IT

데이터 웨어하우스 - DW(Data Warehouse)

jjloo 2017. 5. 24. 15:22

많고 다양한 형태의 Operational Database에서 운용되고 시간이 지날수록 커져가는 데이터베이스 위에서 의사 결정 등을 위해 사용되는 다양한 종류의 어플리케이션들의 Query 수행이 원만하게 이루어지기 위해 오퍼레이셔날 DB 위에 새로운 형태의 통합된 데이터 저장소를 필요로 하게 됩니다

이런 데이터 저장소를 DW라고 합니다. 사용자의 의사 결정에 도움을 주기 위하여 기간 시스템의 DB에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 DB를 총칭합니다.



DW의 시스템 아키텍처를 초창기에 구성한 William Inmon에 따르면 데이터웨어하우스란 의사결정 프로세스를 지원하도록 데이터를 Subject-Oriented하고 Integrated되고 Time-Variant이고 Non-Volatile하게 Collection한 것을 의미합니다.


주제지향(Subject-Oriented)은 기업이 통상적으로 운용하는 트랜젹션 프로세싱을 위한 일반적이고 다양한 종류의 데이터 저장소가 아니며, 의사 결정에 필요한 특정 주제(Subject)의 데이터만을 가지고 있습니다. 데이터웨어하우스에 저장, 관리되는 데이터는 일반적으로 다수의 서로 다른 형태의 DB로부터 통합(Integrated)된 것입니다

데이터를 이용해 의사 결정을 하는데 가장 유용한 측면중의 하나는 데이터가 시간에 따라 어떻게 변하였는지를 살피는 것인데요, 이를 시계열(Time-Variant)라 합니다. 대부분의 DW에는 시간에 따라 변화된 데이터 정보를 저장합니다

비휘발성(Non-Volatile)의 의미는 DW는 물리적으로 오퍼레이셔날 DB와는 별도로 데이터를 저장하게 됩니다. 오퍼레이셔날 DB에서는 필요한 트랜잭션 관리, 복구 기법, 동시성 제어 기법 등은 중요시외지 않는 경우가 대다수입니다. 그 대신 정기적으로 데이터를 오퍼레이셔날 DB로부터 로딩하고 로딩된 데이터를 액세스하는 기법이 중요시 되게 되는데요

DW 데이터는 오퍼레이셔날 DB에서 수시 발생되는 갱신이나 삭제 등이 적용되지 않으므로 휘발성을 갖지 않게 됩니다.


오퍼레이셔날 시스템과 DW 시스템의 차이점은 오퍼레이셔날 DB 시스템의 경우 주로 조직이 필요로 하는 일상 업무를 위한 OLTP(On-Line Transaction Processing)를 위한 시스템이라고 DW 시스템은 데이터 분석이나 의사 결정 등을 지원하는 OLAP(On-Line Analytical Processing)를 위한 시스템이라고 보면 됩니다.



OLTP 시스템과 OLAP 시스템의 주요 차이점을 보면 용도, 사용자, 설계 기법, 요약도 등 전체적으로 많은 차이를 보이게 됩니다

OLAP를 보면 정보분석 용도이며 사용자가 조직관리자, 분석기 등의 지식 근로자이며 주제 중심으로 DB 설계기법이 적용되며 데이터는 시간에 따른 변화에 중점을 두고 있습니다

데이터 요약도(Summarization)은 데이터 요약중심이며 작업 단위는 대다수가 복잡한 질의이고 주로 읽기 형태로 액세스를 하게 됩니다. 액세스 레코드 수에서도 수백만개 정도로 매우 많으며 사용자 수는 상대적으로 적습니다

DB 크기는 TB단위이며 높은 유연성과 사용자 자치성(Autonomy) 우선으로 시스템 우선 순위가 정해지며 시스템 성능 평가척도는 질의 Throughput과 응답 시간으로 평가 됩니다. 


OLTP의 경우, 오퍼레이셔날 트랜잭션의 용도이며 일반사용자나 DBA 등이 사용을 하고 ER기반과 응용프로그램 중심으로 설계 됩니다. 데이터는 현재값 중심이며 개별 데이터 값을 중심으로 요약도를 형성하게 됩니다. 

작업 단위는 짧고 간단한 트랜잭션 중심이며 읽기/쓰기 등 모든 액세스가 필요하게 되며 액세스 되는 데이터의 수도 수백개 정도로 적으며 사용자 수의 경우는 상대적으로 많습니다. 

DB 크기는 GB단위이며 높은 성능과 높은 유용성이 우선되고 시스템 성능 평가척도는 트랜잭션 Throughout입니다.


데이터웨어하우징 시스템은 통상적으로 데이터 소스로부터 데이터를 클리닝하게 로딩하며 메타정보 등을 관리하는 DW 서버를 하위 Tier에 두고, 중간 Tier OLAP 프로세스 서버를 두며 상위 Tier Data Mining 등 의사 결정 응용 프로그램 도구를 두는 3-Tier 아키텍쳐를 가지게 됩니다.


OLAP 서버는 크게 ROLAP MOLAP, HOLAP로 구분되어 집니다. ROLAP(Relational OLAP) 서버는 관계형 DB나 확장된 관계형 DB를 사용하여 다차원 모델링되는 데이터 큐브를 테이블 형태로 저장 운요하는 방식입니다. MOLAP(Multidimensional OLAP) 서버는 데이터 큐브를 실제로 어레이를 기반한 다차원 저장 엔진을 사용하여 저장 운용하는 방식입니다. HOLAP(Hybrid OLAP) 서버는 위 두방식을 혼용하는 방식을 말합니다.

'IT' 카테고리의 다른 글

SCM (Supply Chain Management)  (0) 2017.05.25
MES (Manufacturing Execution System)  (0) 2017.05.24
BI (Business Intelligence)  (0) 2017.05.24
EAI (Enterprise Application Integration)  (0) 2017.05.24
IT 경영 전략  (0) 2017.05.24
Comments