Language/Python

TIL-웹 크롤링(Web Crawling)

청렴결백한 만능 재주꾼 2020. 5. 13. 21:52
반응형

으으.. 머리아팠던 웹크롤링

어제 배운 것을 토대로 빌보드 차트를 크롤링 해보았다.

csv쪽은 그냥 기본적으로 넣는 것들이고 

 

crawling_url:

내가 크롤링할 홈페이지 URL

response :

request모듈을 사용하여 http인 그 빌보드 차트 홈페이지에 접속한 것이다.

 

그 밑 프린트문:

빌보드차트 홈페이지 html문을 프린트함

bs 는 import한 핵심 모듈. Install직접한 

BeautifulSoup을 이용하여 html을 불러옴. html.parser는 파이썬에서 html을 해석하는 것.

 

all_list:

먼저 정의한 bs를 find_all(뷰숩함수로)분석한다.

find_all('<tag_name'>,{'앞 태그 안에서 디테일하게 찾고 싶은 태그,클래스,아이디등등':re.compile("내용")}) -> re.compile은 import re를 이용한 것. 

 

그렇게 하여 포문돌린다.

 

방금 정의한 올리스트를 이용하여

랭킹과 노래이름 가수 이렇게 세개를 all_list내에서 다시 분석해 각각 가지는 특성을 가지고 find_all을 다시 썼다. 각각이 가지는 특성들을 컴파일하는 span태그의 text들만 뽑아서 csv튜플에 3개를 넣어 밑과 같은 결과가 나왔다. 뚝배기 나갈뻔.

 

 

 

 

반응형