본문 바로가기

Data handling/Web crawling

[크롤링] beautiful soup에 관하여, 내가 bs를 쓰지 않는 이유

반응형

parsing을 ‘html.parser’, ‘lxml’, ‘html5lib’ 중 어떤 걸로 하느냐에 따라 좀 달라진다고 한다.

 

그렇지만 특정 사이트들에 원하는 항목은 아예 html 내에 없을 수도 있었다. 

 

아무리 봐도 request를 통해 얻은 response의 text엔 내가 원하는 정보가 없었다.

 

얼마나 삽질을 했을까… 문법적 오류가 있는 줄 알고 계속 beautiful soup 문법을 살펴보며 이래 저래 방법을 찾으려 햇다. 그런데 다시보니 원하는 테그가 아예 크롤링 된 결과에 없어서 안되는 것이었다.

 

selenium으로 갈아타자… 좀 느리긴 하지만. 그래도… 

 

scrapy를 공부하면 훨훨 날듯이 쓸 수 있을 것 같은데.

 

정리하면

  1. beautiful soup는 안 통하는 사이트가 많은 것 같다.
  2. selenium은 느리지만 당장 하기엔 좋다.
  3. scrapy를 공부해서 selenium에 날개를 달자.
반응형