'크롤링' 태그의 글 목록

PHP Snoopy 관련

보통 PHP에서 RSS나 외부 사이트의 내용을 긁어서 가공하려고 할 때에는 소켓을 이용해 웹 페이지를 긁어오게 되는데, snoopy라는 파싱 클래스 라이브러리(http://snoopy.sourceforge.net/)를 이용하면 이러한 작업을 매우 간단하게 해결할 수 있는 장점이 있습니다. curl을 이용하기 때문에 fopen을 막아놓은 경우에도 시원하게 긁어오는 등 외부 사이트 크롤링과 파싱에서 탁월한 성능을 보여주기 때문에 저도 자주 애용하고 있는데요. 심지어는 로그인이나 특정 매개변수를 POST로 submit해 집어넣어야 하는 페이지에도 적용할 수 있는 등 쓰임새가 참 다양합니다. 그런데 보통 이 크롤링 작업은 외부 사이트의 내용을 어떻게 잘 발라내느냐가 관건이 되기 때문에 긁어오는 것보다도 긁은 다..

IT 전용글 2014.10.14

개발자의 일하며 읽고 느끼고 즐기고

크롤링 2

티스토리툴바