🔎

002. 데이터 분석

1. KDD 분석 절차

notion imagenotion image
기업에 들어가시면 데이터가 준비된 경우는 흔치 않습니다. 그래서 데이터를 구축하는 일부터 진행하시게 될 겁니다. 이 과정에서 백엔드 지식이 필요하며, 전처리 과정에 많은 시간을 할당하게 되실 겁니다.
👉
대부분 데이터 분석을 하게 되면 회사에 가서 모델링을 주로 하게 될 것이라 생각하는 경우가 흔하여 미리 말씀드립니다.
  1. 데이터를 구축한다면 원하는 데이터를 선택합니다.
  1. 선택된 데이터 중 이상치나 결측치를 제거하고 어떤 데이터를 추가할 지 규칙을 정해서 데이터를 추가합니다.
  1. 이제 목적에 맞게 원하는 형태로 데이터를 변형합니다.
  1. 패턴을 만들기 위해 데이터 마이닝 도구와 기법 등을 사용해 필요하다면 예측 작업까지 진행하게 됩니다.
  1. 모두 완료가 되면 처음에 데이터 분석의 목적 즉, 가설에 따른 결과를 검증 및 확인하고 발견된 지식을 업무에 활용하면 됩니다.

2. 학습 로드맵

이 로드맵은 데이터 분석가를 희망하거나 데이터 분석에 대해 공부하고 싶은 분들에게 권하는 로드맵입니다. Python을 아예 모르는 채로 시작하기엔 힘들기 때문에 어느정도 배우셨다면, Python 문법 전체를 익히지 않더라도 '타이타닉 생존자 예측' 등 여러 프로젝트의 데이터 분석 프로세스를 익히는 것이 큰 도움이 됩니다.
👉
캐글이나 데이콘에 가시면 수상작을 보실 수 있습니다. 또는 유튜브를 검색해보세요. 타이타닉 생존자 예측을 추천해드립니다.
notion imagenotion image
 

3. 데이터 분석에 대한 고찰

우리의 목표는 특정 또는 불특정한 현상을 개선하거나 해결할 가장 효율적인 전략을 찾아 논리적으로 표현(제시)하는 것이다.
이 문구는 아인슈타인이 한 말을 조금 변형한 것인데요. 특정 또는 불특정한 현상이 바로 데이터인 것이고 개선하거나 해결할 가장 효율적인 전략을 찾는 게 데이터 분석의 기획이라고 표현할 수 있겠습니다. 논리적으로 표현 및 제시하는 것은 알고리즘이라고 표현할 수 있을 것 같습니다.
우리의 일상 생활 속에 데이터 분석은 깊게 들어와 있습니다. 넷플릭스, 유튜브, 왓챠, 네이버, 카카오, 넥슨 등의 거대 기업 뿐만 아니라 클래스101, 배달의민족, 인프런, 당근마켓 등 스타트업이거나, 스타트업에서 시작한 기업에서도 데이터 분석을 활용하고 있습니다.
이뿐만 아니라 고객 분석, 광고노출, 추천 동영상, 추천 음악, 의료 등 다양한 분야에서 활용되고 있습니다. 즉, 데이터 분석은 일상에서도 쉽게 접할 수 있는 모든 것에 활용되며, 때로는 기업이나 국가의 운명까지 바꿔놓는 역할까지 하고 있습니다.
아래는 제주대 병원의 의사 분과 개발한 서비스입니다. 템플릿은 부트스트랩을 사용하였고, 텐서플로우를 사용해서 폐렴 여부를 알려주는 기능을 개발하였습니다. 데이터 구축 및 전처리, 라벨링을 모두 거쳐 인공지능 기능까지 추가하였습니다.
notion imagenotion image
notion imagenotion image
 
notion imagenotion image
 
 
이러한 것들이 이미 갖춰진 실력이 있어야 할 수 있는 것일까요? 아닙니다. 여러분도 조금만 공부하시면 어느 정도의 성과물까지 만들 수 있습니다. 물론, 서비스를 고도화시키기 위해 굉장히 많은 노력이 필요합니다.
비유를 하자면, 우리는 자동차의 엔진을 뜯어보지 않아도, 그 원리를 정확하게 모르더라도, 운전을 할 수 있습니다. 워낙 잘 개발된 라이브러리들이 많아서, 지금은 이 라이브러리를 운전만 하시면 되는 시대가 되었으며, 대부분의 실제 Product는 그렇게 개발되고 있습니다.
가능하다면, 실전(실습)을 통해 원리를 배우시길 바랍니다.

4. 데이터 분석 방법

아래의 데이터 말고도 다른 다양한 방법들도 존재하지만, 중요하다고 생각하는 방법 5가지에 대해 정리해 보았습니다. numpy, pandas, matplotlib 등 시각화를 해서 보여주는 것들은 탐색적 데이터 분석에 속합니다.
  • 자연어 처리(Natural Language Processing)
  • 패턴 인식(Pattern Recognition)
  • 탐색적 데이터 분석(EDA, Exploratory Data Analysis)
  • 가설 검정(Hypothesis Testing)
  • 기계 학습(Machine Learning)
 
이런 데이터 분석을 통해서 여러분들이 얻고자 하는 게 무엇인가요? 결국 데이터는 유용한 정보의 발견, 결론을 (대표나 임원에게, 의사결정자에게) 알리는 것 그리고 최종 의사 결정을 돕는 것이라고 할 수 있습니다.
예를 들어 제한된 자원으로 결과물을 만들어내고자 할 때, 빅데이터를 활용해서 시장에서 무엇을 원하는 지 등에 대한 여러가지 가설을 세울 수 있고 더 나은 결과물을 도출해낼 수 있습니다.
 
Data analysis is a process of inspecting, cleansing, transforming and modeling data with the goal of discovering useful information, informing conclusion and supporting decision-making From Wikipedia

5. 빅데이터 특징

기본적인 빅데이터의 특징으로는 3V가 있습니다. 하지만 빅데이터의 활용도가 점점 높아지면서 몇 가지 특징들이 더 추가되어 요즘은 5V부터 7V까지 정의할 수 있습니다.

5.1. 3V

  • Volume : 데이터 양 (수십테라, 페타바이트 등)
  • Velocity : 데이터 입출력 속도 (생산, 수집, 분석, 예측 등)
  • Variety : 데이터 다양성 (정형, 비정형 데이터 등)

5.2. 5V

  • Volume : 데이터 양
  • Velocity : 데이터 입출력 속도
  • Variety : 데이터 다양성
  • Value : 데이터의 가치
  • Veracity : 데이터의 신뢰성

5.3. 7V

  • Volume : 데이터 양
  • Velocity : 데이터 입출력 속도
  • Variety : 데이터 다양성
  • Value : 데이터의 가치
  • Veracity : 데이터의 신뢰성
  • Validity : 데이터의 정확성
  • Volatility : 데이터의 휘발성
 

6. 그런데 왜 빅데이터일까요?

6.1. Law of Large Numbers (큰 수의 법칙)

만약에 여러분이 이러한 가설을 세웠다고 가정합시다.
"주사위를 던졌을 때 주사위 각 숫자가 나올 확률은 1/6이므로, 60번씩 던지면 10번씩 나올 거야!"
하지만 실제로 주사위를 60번 던졌을 때 1이 50번 나오는 확률이 나올 수 있을 겁니다. 하지만 주사위를 만 번이나 던진다고 한다면 1이 몇천 번 나올 확률이 적어집니다. 즉, 수가 클 수록 여러분의 가설과 근접해질 수 있습니다.
 
우리의 일상생활이나 비즈니스에 대한 다양한 정보가 매 순간 데이터로 기록된다. 이는 개인과 기업, 정부가 비교적 쉽게 대량의 데이터를 손에 넣을 수 있게 되었음을 의미한다. (중략) “다음 분기에 매출 증가를 위해 어떤 광고 전략을 써야 할지 알고 싶군요. 과거 광고의 매출 데이터를 분석해서 광고가 매출에 미치는 영향을 조사해 주세요.” - 데이터 분석의 힘
 
즉, 비교적 쉽게 빅데이터를 얻을 수 있기 때문에 여러분이 원하는 결론에 쉽고 정확하게 다다를 수 있습니다. 또한 데이터 분석이 누군가만 할 수 있는 전유물이 아니라 모두가 가능한 시대가 바로 지금입니다.
👉
공공데이터 포털(https://www.data.go.kr) 말고도 아래와 같이 수십개의 데이터 제공 사이트가 있습니다. 참고바랍니다.
그러나 상관 관계가 인과 관계가 아니라는 사실을 명심해야 합니다. 따라서 앞서 봤던 인용문에서 광고와 매출 관계가 인과관계가 아님을 주의해야 합니다. 광고가 늘면 매출에 영향을 줄 수도 있지만, 반드시 매출에 영향을 줄 수 있는 것은 아니기 때문입니다. 물건에 따라 해외 수출 등 다양한 요인이 존재하기 때문에 잘못된 데이터 분석을 하고 있지는 않은지 따져보아야 합니다.
또한, 데이터 문제가 아니라 bias(Bias는 뒤에서 다루는 개념입니다. 여기서는 편향, 편견으로 이해해주세요.)가 문제가 될 때도 있습니다. 어떤 값에 중요도를 높게 줘서 분석을 한다면 데이터 분석이 잘못될 수 있기 때문에 주의해야 합니다.