[크롤링] beautiful soup에 관하여, 내가 bs를 쓰지 않는 이유

728x90

parsing을 ‘html.parser’, ‘lxml’, ‘html5lib’ 중 어떤 걸로 하느냐에 따라 좀 달라진다고 한다.

그렇지만 특정 사이트들에 원하는 항목은 아예 html 내에 없을 수도 있었다.

아무리 봐도 request를 통해 얻은 response의 text엔 내가 원하는 정보가 없었다.

얼마나 삽질을 했을까… 문법적 오류가 있는 줄 알고 계속 beautiful soup 문법을 살펴보며 이래 저래 방법을 찾으려 햇다. 그런데 다시보니 원하는 테그가 아예 크롤링 된 결과에 없어서 안되는 것이었다.

selenium으로 갈아타자… 좀 느리긴 하지만. 그래도…

scrapy를 공부하면 훨훨 날듯이 쓸 수 있을 것 같은데.

정리하면

DevToolsActivePort file doesn't exist error 해결법 (1)	2021.02.19
[selenium] js 동적 페이지 크롤링 하기 (주로 댓글) iframe, #document 해결 (0)	2021.02.12
[scrapy] 403 error 발생시 대처법 (0)	2021.02.09
[크롤링] 엄청 쉽고 간단한 크롤링 방법. 꿀팁. 라이브러리 필요 없음 (0)	2020.09.29
[오픈 Api 이용하기] 금융위원회_기업기본정보 python, 공공 데이터 (2)	2020.07.01