📝

001. 데이터분석과 머신러닝 실습

위 링크(http://www.paullab.co.kr/MBIT_데이터_분석.zip)에서 파일을 다운로드 받으신 다음 압축을 풀어주세요. Python 챕터에서 실습한 colab에서 파일 > 노트열기 > 업로드로 해당 파일을 열어주세요.
 
import tensorflow as tf # 딥러닝(인공지능 > 머신러닝 > 딥러닝) import pandas as pd # 데이터 분석 import numpy as np # 수학 연산 import matplotlib.pyplot as plt # 시각화
 
코드는 아래와 같이 진행합니다.
  1. 데이터셋 선택
  1. 데이터 전처리
  1. 데이터 변환
  1. 데이터 마이닝
  1. 데이터 마이닝 결과 평가
 
##1. 데이터셋 선택 파일경로 = 'https://bit.ly/3du615z' 회사매출정보 = pd.read_csv(파일경로) 회사매출정보.head() # 실제 원본 데이터 : https://raw.githubusercontent.com/paullabkorea/tutorialproject/master/Tutorial_Data%20Analysis/데이터분석_매출액분석.csv
## 2. 데이터 전처리 # 결측치(비어있는 데이터 확인) 회사매출정보.info()
회사매출정보.isnull().sum()
## 3. 데이터 변환 # 매출 = 순익 + 비용 회사매출정보['비용'] = 회사매출정보['매출_억'] - 회사매출정보['순익_억'] 회사매출정보
## 4. 데이터 마이닝 # 4.1 시각화 - Python, Tableau, Power BI, sas, spss, etc plt.plot(회사매출정보['사업연차'], 회사매출정보['매출_억'], label='a') plt.plot(회사매출정보['사업연차'], 회사매출정보['순익_억'], label='b') plt.plot(회사매출정보['사업연차'], 회사매출정보['비용'], label='c') plt.xlabel('years') plt.ylabel('money') plt.title("ABC company") plt.legend() plt.show()
## 4. 데이터 마이닝 # 4.2 예측 - sklearn, tensorflow, etc 독립 = 회사매출정보[['사업연차']] # 원인(기존 데이터) 종속 = 회사매출정보[['매출_억']] # 결과(알고 싶은 데이터) print(독립.shape, 종속.shape)
독립
X = tf.keras.layers.Input(shape=[1]) # 독립변수의 col Y = tf.keras.layers.Dense(1)(X) # 종속변수의 col model = tf.keras.models.Model(X, Y) # 모델 준비 model.compile(loss='mse') #MSE(mean squared error) : 회귀 용도의 딥러닝 모델을 훈련시킬 때 사용되는 손실 함수
## 첫번째 학습 model.fit(독립, 종속, epochs=10) #epochs는 학습 수, 모델을 학습하는 과정
model.predict([6])
model.predict(독립)
model.get_weights() # y = wx + b, 인공신경망 - google에서 검색!
-0.31622845 * 6 + 0.01730344 # -1.8800672
## 두번째 추가 학습 model.fit(독립, 종속, epochs=1000, verbose=0) #epochs는 학습 수, verbose는 출력 여부 model.fit(독립, 종속, epochs=10)
model.predict([6])
model.predict(독립)
model.get_weights()
1.6016386 * 6 + 1.464713 # 11.074544
## 5. 데이터 마이닝 결과 평가 # 문서로 나오게 될 것이고, 최종 적으로는 의사결정에 반영 # 예) 6년차에 12억 정도의 매출액이 나올 것이고, # 이에 따라 몇 명의 직원이 더 필요할 것이므로, # 직원을 00명 증원하세요.