일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 프로그래머스
- 리액트 프로젝트
- 타입스크립트
- Next 팀 프로젝트
- 파이썬 반복문
- React Hooks
- 내일배움캠프 최종 프로젝트
- REACT
- 리액트 공식문서
- 내일배움캠프
- tanstack query
- 내일배움캠프 프로젝트
- 타입스크립트 props
- 파이썬 for in
- JavaScript
- 자바스크립트
- 파이썬 딕셔너리
- 파이썬 replace
- 리액트
- 파이썬 slice
- 한글 공부 사이트
- useState
- 내배캠 프로젝트
- 코딩테스트
- 파이썬 for
- 파이썬 enumerate
- typeScript
- useEffect
- 리액트 훅
- 타입스크립트 리액트
- Today
- Total
sohyeon kim
[Data] 데이터 웨어하우스 & 데이터 레이크 + 데이터 마트 : 개념, 차이점, 장단점, 활용 사례 본문
💡Data Warehouse & Data Lake 를 비교해 보자.
공통점
- 저장소의 형태로 데이터 분석, 비즈니스 인텔리전스를 지원하는 것이 목적
- 원본 데이터 소스로 데이터를 수집하고 저장
- 데이터 통합과 관리를 위한 인프라 제공(구조나 활용사례에서 차이가 있다.)
데이터 웨어하우스
- 의사결정 지원을 위한 데이터의 집합으로 기업의 핵심 데이터를 체계적으로 관리, 분석하기 위해 만들어짐
- 전통적으로 정형 데이터(structured data)를 중심으로 구축되어 데이터의 품질과 무결성을 중요시함
- 데이터 모델링을 통해 체계적인 데이터 구조를 만들고 ETL(Extract-Transfrom-Load) 프로세스를 거쳐 통합-정제-표준화함
데이터 레이크
- 정형 데이터뿐만 아니라 반정형, 비정형 데이터와 같은 모든 유형의 데이터를 통합 및 저장하는 저장소
- 데이터의 가치를 미리 결정하지 않고 데이터 레이크에 보관했다가 필요시 취사선택하여 분석
- 따라서 데이터 웨어하우스에 비해 많은 양의 데이터 수집과 저장에 적합
- 하지만 데이터 거버넌스와 품질 관리에는 취약하다는 단점이 있음
두 개념, 어떻게 활용하나?
근래 많은 기업이 상황과 목적에 따라 데이터 웨어하우스와 데이터 레이크를 적절히 혼합하여 사용하고 있다.
데이터 전략을 수립할 시엔 데이터의 특성, 분석 목적, 기술적 역량 등을 종합적으로 고려해야 한다.
일반적으로 데이터 레이크는 더 낮은 비용으로 더 높은 유연성을 제공한다.
다만 관계형 데이터를 저장하려는 경우 데이터 웨어하우스를 선택하는 것을 추천한다.
여기에 데이터 마트를 만들어 특정 팀마다 요구하는 데이터의 저장, 관리도 가능
여기 한 온라인 쇼핑몰이 있다고 가정해보자.
이 쇼핑몰에선 고객 데이터 분석을 통해 개인화된 추천 서비스를 제공하기 위해
회원 정보, 구매 내역, 검색 기록 등 정형 데이터를 체계적으로 관리하고자 한다.
이때 사용되는 개념이 바로 데이터 웨어하우스이다.
반면 물류 기업을 예시로 들어보자.
이 물류 기업에선 드론과 부착된 센서를 통해 방대한 물류 데이터를 저장하고 있다.
이렇게 수집한 비정형 물류 데이터는 데이터 레이크 전략을 선택해 수집, 관리될 수 있다.
데이터 웨어하우스 Data Warehouse | 데이터 레이크 Data Lake | |
특징 |
|
|
고려사항 |
|
|
활용 사례 |
|
|
데이터 마트 Data Mart?
- 데이터 웨어하우스의 하위 개념으로, 웨어하우스보다 작은 소규모 데이터 저장소를 의미
- 특정 부서나 사업 부문의 의사결정을 지원
- 부서 단위의 요구사항에 맞춰 데이터를 추출, 정제, 통합하기에 맞춤형 데이터셋을 구축할 수 있다는 것이 장점
💡 정리
세 개념 모두 클라우드 스토리지 솔루션이면서,
- 데이터 레이크 : 원시 데이터 및 비정형 데이터의 중앙 저장소
- 데이터 웨어하우스 : 데이터를 구조화된 형식으로 저장하는 중앙 리포리지
- 데이터 마트 : 특정 사업부를 위한 데이터웨어하우스
마트를 예시로 연결해 본다면,
- 데이터 레이크는 물건이 들어오자마자 일단 창고에 쌓아둔다. 박스를 열 필요 없이 그냥 보관하고 필요시 열어보는 방식
- 데이터 웨어하우스는 물건을 분류하고 정리해 체계적으로 보관하는 큰 물류창고로, 모든 게 정리되어 있지만 그만큼 정리할 때 시간과 비용이 더 많이 든다.
- 데이터 마트는 지점마다 있는 작은 창고처럼 필요한 데이터만 골라 저장한 것으로 볼 수 있다.
세 가지 모두 분석을 위해 데이터를 안전하게 저장하고 여러 데이터를 통합하여
데이터 사일로를 해결할 수 있는 점에서 효율적이고 실시간 데이터 베이스 분석, 정보 사용이 가능하다는 이점이 있다.
아키텍처 관점에서 보면 원본 데이터(Raw Data) > 데이터 레이크(Raw Data) > 데이터 웨어하우스(전사적 통합 정형 데이터) > 데이터 마트(부서별 특화 정형 데이터) 라고 이해할 수 있다.
** 데이터 사일로 : 조직의 한 부분에 존재하는 데이터가 다른 부분에서 찾아 활용하거나 액세스 할 수 없도록 분리된 상태
데이터 웨어하우스 VS 데이터 레이크, 뭐가 다를까?
biviz.ai
'etc...' 카테고리의 다른 글
[VS Code] 비주얼 스튜디오 코드 들여쓰기 설정 (0) | 2023.12.28 |
---|