1️⃣

6/16(금) 16시

 

주제 : 활용편 틀 구상하기

사이트 : 번개장터
 
🔖
전체적인 틀 1. 해당 사이트 크롤링 목적 및 기대효과(?)
2. 크롤링 가능여부 체크
3. 크롤링할 사이트 페이지 살펴보기
4. DB 테이블 만들기(구조)
5. … (각 사이트별 상이)
 

1. 해당 사이트 크롤링 목적 및 기대효과

  • 번개장터에 존재하지 않는 필터 사용해볼 수 있음
  • 상점??
 

2. 크롤링 가능여부 체크

User-agent: * Allow: / # Google Search Engine Sitemap Sitemap: https://m.bunjang.co.kr/sitemap.xml Sitemap: https://s3.ap-northeast-2.amazonaws.com/bunsitemap/production/sitemap.xml.gz
notion imagenotion image
 

3. 크롤링할 사이트 페이지 살펴보기

크롤링 데이터 검색방법

검색키워드로 범위 좁히기
→ 카테고리 선택, 최신순 선택
→ 당일 데이터만 불러오기
(다음날에 크롤링을 한다고 하면 다음날에 업로드된 데이터만 불러오는 것)

크롤링 내용

  • 상품 리스트 페이지
    • data-pid
    • 상품 이름
    • 번개페이 여부
    • 배송비포함 여부
    • 검수가능 여부
    • 가격
    • upload time (??)
    • 거래지역
    • 상품 상세 페이지 링크
  • 상품 상세 페이지
    • 중고 여부
    • 교환 여부
    • 상품 태그
    • 상점 정보

설명 방법

  • ✅개발자 도구 열어서 → 클릭해보면서 어떻게 되어 있는지 확인하기
  • HTML을 가져와서 확인하기

확인해야할 예외 사항

  • 페이/배송비포함/X → 있는 것도 있고 없는 것도 있음. 이래서 미리 살펴보는 거다.
  • ‘예약중’ 확인
  • ‘AD’ 여부
 

4. 데이터베이스 테이블 만들기(구조)

DB 테이블 구성 그림 필요
 
DB 테이블 생성 및 수정 → 전부 python에서 만들고, MySQL은 수정만! 테이블명, 컬럼명 규칙 필요
 

5. 크롤링 실습 - 상품 : 전자기기(휴대폰/태블릿) or 신발

  • 실제 크롤링
  • 크롤링한 데이터 DB에 저장
  • 필터 사용해서 원하는 제품 확인하기
 

6. 크롤링 실습 - 상점?

  • 5번에서 크롤링해서 필터를 해보니 내가 원하는 상품을 이 상점에서 많이 판매하네?
  • 해당 상점의 물건들을 확인해보자!