Part4. 서술형 문제 정규화 모델 과적합 방지 패널티 함수 릿지 회귀: 베타 제곱 상수, L2-norm 라쏘 회귀: 베타 절대값 상수, L1-norm 엘라스틱넷: 릿지+라쏘 주성분 분석(PCA) 원 데이터의 분포를 최대한 보존하면서 고차원 공간의 데이터들을 저차원 공간으로 변환하는 기법 시계열 분석 지수 평활법 자기 회귀 모델(AR) 모형 이동 평균(MA) 모형 ARMA 모형 ARIMA 모형 로지스틱 회귀 분석 범주형 데이터를 대상으로 하는 회귀, 분류 기법 인공신경망 모형 랜덤포레스트 계층적 군집 분석 혼합분포 군집 밀도기반 군집 퍼지 군집 K-NN 서포트 벡터 머신(SVM) IT자격증/ADP & ADsP 3년 전
Part3. 데이터 시각화 시각화 인사이트 프로세스 빅데이터 시각화 정보 구조화 정보 조직화 데이터를 수집하는 과정을 거쳐 혼돈의 상태로 존재하는 데이터를 분류하고 배열하고 조직화해 질서를 부여하는 작업 리처드 솔 워먼의 LATCH Method Cases 위치 (Location) 지리적 정보에 기반을 둔 정보를 조사하고 비교할 때 공간적으로 구분되는 정보의 조직화 알파벳 (Alphabet) 수평적이고 방대한 정보 조직화 카테고리, 지역에 따른 조직화가 효과적이지 않을 때 시간 (Time) 시간이 지난 사건의 조직화 시간에 따른 변화의 추이 카테고리 (Category) 속성에 따른 분류 상위 카테고리, 하위 카테고리가 있을 수 있음 위계 (Hierarchy) 값의 크기 비교에 따른 조직화 > 순서가 큰 의미를 가짐 정보의 가중치나 .. IT자격증/ADP & ADsP 3년 전
Part2. 데이터 분석 텍스트 마이닝 텍스트를 이용하여 패턴이나 관계를 추출하고 그 안에서 의미 있는 정보나 가치를 발굴하여 해석하는 일련의 과정 텍스트 마이닝의 기능 문서요약 문서분류 문서군집 특성추출 Corpus 텍스트 마이닝 패키지인 [tm]에서 문서를 관리하는 기본 구조. 텍스트 문서들의 집합 사회연결망 분석(SNA, Social Network Analysis) 개인과 집단들 간의 관계를 노드와 링크로써 모델링해 그것의 위상구조와 확산 및 진화과정을 계량적으로 분석하는 방법론 사회연결망 분석 기법 연결정도 중심성: 밀도 매개 중심성: 역할 근접 중심성: 거리 위세 중심성: 가중치 버즈 분석 IT자격증/ADP & ADsP 3년 전
Part1. 데이터 처리 기술 이해 ODS(Operational Data Store) 데이터에 추가 작을 하기 위해 다양한 데이터 원천들로부터 데이터를 추출, 통합한 데이터베이스 ODS 구성 단계 1. Interface: 데이터 획득 2. Staging: 데이터 저장 3. Profiling: 데이터 품질 점검 4. Cleansing: 오류 데이터 수정 5. Integration: 단일 통합 테이블에 적재 6. Export: 데이터 웨어하우스에 적재 데이터 웨어하우스 특징 주제중심 영속성 통합성 시계열성 다차원 모델링 기법 구분 스타 스키마 스노우플레이크 스키마 장점 모델과 메타 데이터가 단순하다. 계층구조를 정의하기 쉽다. Join 성능이 빠르다. 데이터 무결성 유지가 용이하다. 저장 공간을 적게 사용한다. 모델 수정이 용이하다. 단점 자.. IT자격증/ADP & ADsP 3년 전