👨‍💼

2.2 타이타닉 데이터

1. 데이터 다운로드와 구조 설명

데이터는 총 2개입니다. 머신러닝을 알고리즘을 평가하기 위해 데이터는 흔히 2개로 분류합니다. 학습데이터와 테스트데이터로 나누는 것인데요.
원본 데이터(Original data set)가 2개의 데이터로 나눈 것입니다. 보통 7:3정도로 나누고 5:5로 나누는 경우도 있습니다.
데이터는 아래 파일로 다운로드 가능하시고, 링크(http://paullab.co.kr/타이타닉_데이터.zip)로도 다운로드 가능합니다.

2. 데이터 구조

데이터 구조는 아래와 같습니다.
notion imagenotion image
 
  • PassengerId : 각 승객의 고유 번호
  • Survived : 생존 여부(0 : 사망, 1 : 생존)
  • Pclass : 티켓의 승선권 클래스
    • 1 = 1등석
    • 2 = 2등석
    • 3 = 3등석
  • Name : 이름
  • Sex : 성별
  • Age : 나이
  • SibSp : 동반한 Sibling(형제자매)와 Spouse(배우자)의 수
  • Parch : 동반한 Parent(부모) Child(자식)의 수
  • Ticket : 티켓의 고유넘버
  • Fare : 티켓의 요금
  • Cabin : 객실 번호
  • Embarked : 승선한 항(제주항, 부산항, 인천항과 같은 항입니다.)