반응형
으으.. 머리아팠던 웹크롤링
어제 배운 것을 토대로 빌보드 차트를 크롤링 해보았다.
csv쪽은 그냥 기본적으로 넣는 것들이고
crawling_url:
내가 크롤링할 홈페이지 URL
response :
request모듈을 사용하여 http인 그 빌보드 차트 홈페이지에 접속한 것이다.
그 밑 프린트문:
빌보드차트 홈페이지 html문을 프린트함
bs 는 import한 핵심 모듈. Install직접한
BeautifulSoup을 이용하여 html을 불러옴. html.parser는 파이썬에서 html을 해석하는 것.
all_list:
먼저 정의한 bs를 find_all(뷰숩함수로)분석한다.
find_all('<tag_name'>,{'앞 태그 안에서 디테일하게 찾고 싶은 태그,클래스,아이디등등':re.compile("내용")}) -> re.compile은 import re를 이용한 것.
그렇게 하여 포문돌린다.
방금 정의한 올리스트를 이용하여
랭킹과 노래이름 가수 이렇게 세개를 all_list내에서 다시 분석해 각각 가지는 특성을 가지고 find_all을 다시 썼다. 각각이 가지는 특성들을 컴파일하는 span태그의 text들만 뽑아서 csv튜플에 3개를 넣어 밑과 같은 결과가 나왔다. 뚝배기 나갈뻔.
반응형
'Language > Python' 카테고리의 다른 글
Session-TIP-Django 장고 , 개발자에게 좋은 팁 (0) | 2020.05.17 |
---|---|
TIL - 셀레니움 (Selenium) 기초!! (0) | 2020.05.16 |
TIL-파이썬 기초 마무리,Linux/Terminal 입문, Git 입문(Python basic, Linux/Terminal basic, Git basic) (0) | 2020.04.28 |
TIL-파이썬[판다스,모듈,클래스]리눅스/Python[Pandas,Module,Class],Linux (0) | 2020.04.27 |
TIL-파이썬 판다스 기초 & 설치(Python Pandas basic & install) (0) | 2020.04.26 |