주제 : 활용편 틀 구상하기
전체적인 틀
1. 해당 사이트 크롤링 목적 및 기대효과(?)
2. 크롤링 가능여부 체크
3. 크롤링할 사이트 페이지 살펴보기
4. DB 테이블 만들기(구조)
5. … (각 사이트별 상이)
1. 해당 사이트 크롤링 목적 및 기대효과
- 번개장터에 존재하지 않는 필터 사용해볼 수 있음
- 상점??
2. 크롤링 가능여부 체크
User-agent: * Allow: / # Google Search Engine Sitemap Sitemap: https://m.bunjang.co.kr/sitemap.xml Sitemap: https://s3.ap-northeast-2.amazonaws.com/bunsitemap/production/sitemap.xml.gz
3. 크롤링할 사이트 페이지 살펴보기
크롤링 데이터 검색방법
검색키워드로 범위 좁히기
→ 카테고리 선택, 최신순 선택
→ 당일 데이터만 불러오기
(다음날에 크롤링을 한다고 하면 다음날에 업로드된 데이터만 불러오는 것)
크롤링 내용
- 상품 리스트 페이지
- data-pid
- 상품 이름
- 번개페이 여부
- 배송비포함 여부
- 검수가능 여부
- 가격
- upload time (??)
- 거래지역
- 상품 상세 페이지 링크
- 상품 상세 페이지
- 중고 여부
- 교환 여부
- 상품 태그
- 상점 정보
설명 방법
- ✅개발자 도구 열어서 → 클릭해보면서 어떻게 되어 있는지 확인하기
- HTML을 가져와서 확인하기
확인해야할 예외 사항
- 페이/배송비포함/X → 있는 것도 있고 없는 것도 있음. 이래서 미리 살펴보는 거다.
- ‘예약중’ 확인
- ‘AD’ 여부
4. 데이터베이스 테이블 만들기(구조)
DB 테이블 구성 그림 필요
DB 테이블 생성 및 수정 → 전부 python에서 만들고, MySQL은 수정만!
테이블명, 컬럼명 규칙 필요
5. 크롤링 실습 - 상품 : 전자기기(휴대폰/태블릿) or 신발
- 실제 크롤링
- 크롤링한 데이터 DB에 저장
- 필터 사용해서 원하는 제품 확인하기
6. 크롤링 실습 - 상점?
- 5번에서 크롤링해서 필터를 해보니 내가 원하는 상품을 이 상점에서 많이 판매하네?
- 해당 상점의 물건들을 확인해보자!