본문 바로가기

웹스크래핑

(1)

[크롤링] beautiful soup에 관하여, 내가 bs를 쓰지 않는 이유 parsing을 ‘html.parser’, ‘lxml’, ‘html5lib’ 중 어떤 걸로 하느냐에 따라 좀 달라진다고 한다. 그렇지만 특정 사이트들에 원하는 항목은 아예 html 내에 없을 수도 있었다. 아무리 봐도 request를 통해 얻은 response의 text엔 내가 원하는 정보가 없었다. 얼마나 삽질을 했을까… 문법적 오류가 있는 줄 알고 계속 beautiful soup 문법을 살펴보며 이래 저래 방법을 찾으려 햇다. 그런데 다시보니 원하는 테그가 아예 크롤링 된 결과에 없어서 안되는 것이었다. selenium으로 갈아타자… 좀 느리긴 하지만. 그래도… scrapy를 공부하면 훨훨 날듯이 쓸 수 있을 것 같은데. 정리하면 beautiful soup는 안 통하는 사이트가 많은 것 같다. sel..

이전 1 다음

728x90

티스토리툴바