반응형
웹크롤링이란?
웹 사이트를 분석하여 원하는 데이터를 추출하는 과정이다.
What we have to do
- 개발자 도구를 사용하여 수집할 데이터의 패턴을 분석
- 크롤링한 데이터를 csv파일에 저장
- HTML 링크를 타고 이동하여 데이터를 크롤링
Wecode's Tip
- 무슨 데이터를 크롤링할 것인지 명확히 정의하고 접근하는 것이 좋음
- 크롬 개발자 도구로 내가 크롤링할 데이터를 분석해보고 API를 찾아보는 것도 좋음
- 크롬 개발자 도구로 크롤링할 데이터의 요소를 선택하여 태그를 분석할 수 있다.
- 반복 숙달이 중요!!
이건 정적 홈페이지 크롤링하는 거고
동적 홈페이지는 셀레니움을 써서 분석 할 수 있다. xpath를 가져와서 , 분석하면 되는데 웹드라이버 설치해서 해야함.
실제로는 두개 혼합해서 많이 씀, 셀레니움과 bs4를 이용하여 크롤링.
셀레니움<selenium>
반응형
'Wecode > Session' 카테고리의 다른 글
Session-인증/인가(Authentication/Authorization) (0) | 2020.05.18 |
---|---|
Session - HTTP 구조 및 핵심 요소 (0) | 2020.05.13 |
Session-자료 구조(Data Structure)란? , Array(List), Tuple (0) | 2020.05.11 |
Session-Foundations kick off (0) | 2020.05.11 |
Session- 웹은 어떻게 작동하는가?(How does the web work?) (0) | 2020.05.06 |