728x90
parsing을 ‘html.parser’, ‘lxml’, ‘html5lib’ 중 어떤 걸로 하느냐에 따라 좀 달라진다고 한다.
그렇지만 특정 사이트들에 원하는 항목은 아예 html 내에 없을 수도 있었다.
아무리 봐도 request를 통해 얻은 response의 text엔 내가 원하는 정보가 없었다.
얼마나 삽질을 했을까… 문법적 오류가 있는 줄 알고 계속 beautiful soup 문법을 살펴보며 이래 저래 방법을 찾으려 햇다. 그런데 다시보니 원하는 테그가 아예 크롤링 된 결과에 없어서 안되는 것이었다.
selenium으로 갈아타자… 좀 느리긴 하지만. 그래도…
scrapy를 공부하면 훨훨 날듯이 쓸 수 있을 것 같은데.
정리하면
- beautiful soup는 안 통하는 사이트가 많은 것 같다.
- selenium은 느리지만 당장 하기엔 좋다.
- scrapy를 공부해서 selenium에 날개를 달자.
'Data handling > Web crawling' 카테고리의 다른 글
DevToolsActivePort file doesn't exist error 해결법 (1) | 2021.02.19 |
---|---|
[selenium] js 동적 페이지 크롤링 하기 (주로 댓글) iframe, #document 해결 (0) | 2021.02.12 |
[scrapy] 403 error 발생시 대처법 (0) | 2021.02.09 |
[크롤링] 엄청 쉽고 간단한 크롤링 방법. 꿀팁. 라이브러리 필요 없음 (0) | 2020.09.29 |
[오픈 Api 이용하기] 금융위원회_기업기본정보 python, 공공 데이터 (2) | 2020.07.01 |