본문으로 바로가기

Part1. 데이터 처리 기술 이해

category IT자격증/ADP & ADsP 2022. 8. 19. 17:13
728x90

ODS(Operational Data Store)

데이터에 추가 작을 하기 위해 다양한 데이터 원천들로부터 데이터를 추출, 통합한 데이터베이스

ODS 구성 단계

1. Interface: 데이터 획득

2. Staging: 데이터 저장

3. Profiling: 데이터 품질 점검

4. Cleansing: 오류 데이터 수정

5. Integration: 단일 통합 테이블에 적재

6. Export: 데이터 웨어하우스에 적재

데이터 웨어하우스 특징

  • 주제중심
  • 영속성
  • 통합성
  • 시계열성

다차원 모델링 기법

구분 스타 스키마 스노우플레이크 스키마
장점 모델과 메타 데이터가 단순하다.
계층구조를 정의하기 쉽다.
Join 성능이 빠르다.
데이터 무결성 유지가 용이하다.
저장 공간을 적게 사용한다.
모델 수정이 용이하다.
단점 자료의 불일치 위험이 있다.
중복데이터를 포함하고 있다.
많은 저장 공간이 필요하다.
모델 수정이 어렵다.
모델이 복잡하다.
Join 성능이 느리다.
관리 테이블이 많다.

CDC(Change Data Capture)

데이터베이스 내 데이터에 대한 변경을 식별해 필요한 후속 처리를 자동화하는 기술 또는 설계 기법이자 구조

CDC 구현 기법

1. Time stamp on rows

2. Version numbers on rows

3. Status on rows

4. Time/Version/Status on rows

5. Triggers on tables

6. Event programming

7. Log scanner on database

EAI(Enterprise Application Integration)

기업 정보시스템들의 데이터를 연계, 통합하는 소프트웨어 및 정보시스템 아키텍처 프레임워크

EAI 구현 유형

  • Mediation: Publish/Subscribe pattern
  • Federation: Request/Reply pattern

FLUME-NG

오픈소스 이벤트 로그 데이터 수집 시스템

FLUME-NG Architecture

하둡(Hadoop)

가상화를 통한 데이터 처리 시스템

맵 리듀스 분산파일 시스템(HDFS) 사용

특징

  • 선형적인 성능과 용량 확장: Scalable
  • 고장 감내성: 3중 복제
  • 핵심 비지니스 로직에 집중: MapReduce
  • 풍부한 에코시스템 형성
    • 데이터 수집: Chukwa, Flume, Scribe
    • 데이터 연동: Sqoop
    • 데이터 수집: Hiho, Kafka
    • 데이터 처리: Pig, Mahout, Spark, Impala, Presto, Hive, Tajo
    • 데이터 저장: HBase, Kudu
    • 리소스 관리: YARN
    • 코디네이터: Zookeeper
    • 워크플로우 관리: Oozie, Azkaban

HDFS

Namenode(Master), Datanode(Slave)

GFS

Master, Chunk

Lustre

병렬 분산 파일시스템

MapReduce

Scoop

Scoop Architecture

SQL on 하둡

HDFS에 저장된 데이터에 대해 SQL 질의 처리를 제공하는 시스템

  • Drill
  • Stinger
  • Shark
  • Tajo
  • Impala
  • Hawk
  • Presto

Impala

Impala Architecture

728x90

'IT자격증 > ADP & ADsP' 카테고리의 다른 글

Part4. 서술형 문제  (0) 2022.08.24
Part3. 데이터 시각화  (0) 2022.08.24
Part2. 데이터 분석  (0) 2022.08.24