[빅데이터분석기사 실기] 제2유형 1. 데이터 로딩 import numpy as np import pandas as pd df = pd.read_csv("***.csv") print(df.shape) print(df.head()) df_processed = df.dropna().drop(cols, axis=1, inplace=False) X = df_processed.iloc[1:] y = df_processed.iloc[:1] 2. 데이터 전처리 import statsmodels.api as sm # 상수항 추가 df_processed = sm.add_constant(df_processed, has_constant='add') # 타입 변경 y = df_processed['col_name'].astype('category') # 원핫 .. IT자격증/빅데이터분석기사(실기) 2022. 6. 15. 17:42
[빅데이터분석기사 실기] 제1유형 1. 결측치 파악 import pandas as pd import numpy as np df = pd.read_csv('***.csv') # 데이터 파악 df.info() df.describe() # 결측치 개수 df['col_name'].isnull().sum() # 결측치 제거 df.dropna() # 대치 df['col_name'].fillna(0, inplace=True) # 평균 mean = df['col_name'].mean() # 중앙값 median = df['col_name'].median() # 표준편차 std = df['col_name'].std() 2. 정규화 # Min-Max 정규화 import sklearn.preprocessing from MinMaxScaler scaler = .. IT자격증/빅데이터분석기사(실기) 2022. 6. 15. 16:52
[빅데이터분석기사 실기] 결과 저장 total_test = pd.concat([X_test, y_test], axis=1) total_test.to_csv('***.csv', index=False, sep=',', encoding='utf-8') result = pd.DataFrame({'id': y_test.index, 'pred': pred}) result.to_csv('***.csv', index=False) IT자격증/빅데이터분석기사(실기) 2022. 5. 30. 20:42
[빅데이터분석기사 실기] 하이퍼파라미터 튜닝 및 해석 1. 하이퍼파라미터 튜닝 from sklearn.model_selection import GridSearchCV / RandomizedSearchCV param = {'C': [...]} search = GridSearchCV(model, param, cv=5) / RandomizedSearch(model, param, cv=5) search.fit(X_train, y_train) search.best_params_ search.best_score_ 2. 결과 해석 from sklearn.metrics import roc_auc_score roc = roc_auc_score(y, pred) from sklearn.metrics import confusion_matrix confusion = confusi.. IT자격증/빅데이터분석기사(실기) 2022. 5. 30. 20:40
[빅데이터분석기사 실기] 모델 학습 및 검증 from sklearn.linear_model import LogisticRegression / LinearRegression / BayesianRidge / Ridge / Lasso / ElasticNet from sklearn.svm import SVC / SVR from sklearn.neighbors import KNeighborsClassifier / KNeighborsRegressor from sklearn.tree import DecisionTreeClassifier / DecisionTreeRegressor from sklearn.neural_network import MLPClassifier / MLPRegressor from sklearn.ensemble import RandomFore.. IT자격증/빅데이터분석기사(실기) 2022. 5. 30. 17:49
[빅데이터분석기사 실기] 데이터 분석 및 전처리 1. 분석 데이터 확인 import pandas as pd # csv 파일 로드 data = pd.read_csv('***.csv', encoding='utf-8') # 데이터 파악 data.shape data.head() data.describe() data.info() data.hist(bins=n, figsize=(width, height)) # 수치 해석 data.count() data.value_counts() data.mean() data.median() data.std() data.quantile(value) # 결측치 data.isna() data.isnull() data.fillna(value) data.dropno(inplace=True) # 정렬 data.sort_values(by='.. IT자격증/빅데이터분석기사(실기) 2022. 5. 30. 15:42