Wecode/Session

Session-Web 크롤링

청렴결백한 만능 재주꾼 2020. 5. 12. 21:37
반응형

웹크롤링이란?

웹 사이트를 분석하여 원하는 데이터를 추출하는 과정이다.

 

 

What we have to do

 - 개발자 도구를 사용하여 수집할 데이터의 패턴을 분석

 - 크롤링한 데이터를 csv파일에 저장

 - HTML 링크를 타고 이동하여 데이터를 크롤링

 

Wecode's Tip

 - 무슨 데이터를 크롤링할 것인지 명확히 정의하고 접근하는 것이 좋음

 - 크롬 개발자 도구로 내가 크롤링할 데이터를 분석해보고 API를 찾아보는 것도 좋음

 - 크롬 개발자 도구로 크롤링할 데이터의 요소를 선택하여 태그를 분석할 수 있다.

 - 반복 숙달이 중요!!

 

이건 정적 홈페이지 크롤링하는 거고 

 

동적 홈페이지는 셀레니움을 써서 분석 할 수 있다. xpath를 가져와서 , 분석하면 되는데 웹드라이버 설치해서 해야함.

 

실제로는 두개 혼합해서 많이 씀, 셀레니움과 bs4를 이용하여 크롤링.

 

셀레니움<selenium>

 

 

반응형