크롤링 2

BeautifulSoup 사용법 find, find_all

find_all 및 find ① find_all 은 해당 조건에 맞는 모든 태그를 가져옵니다. 1 find_all('태그명', {'속성명' : '값' ...}) ② find 는 해당 조건에 맞는 첫 번째 태그를 가져옵니다. 1 find('태그명', {'속성명' : '값' ...}) ③ select() : css 선택자를 사용해 값을 가져옵니다. class 앞에는.(점)을 사용, id앞에는 #(샵)을 사용 select(.class_name) select(#id_name) 샘플 웹소스 1) 샘플 웹소스를 D:\Python\test.html 등으로 작성합니다. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 ..

IT 전용글/Python 2021.12.24

PHP Snoopy 관련

보통 PHP에서 RSS나 외부 사이트의 내용을 긁어서 가공하려고 할 때에는 소켓을 이용해 웹 페이지를 긁어오게 되는데, snoopy라는 파싱 클래스 라이브러리(http://snoopy.sourceforge.net/)를 이용하면 이러한 작업을 매우 간단하게 해결할 수 있는 장점이 있습니다. curl을 이용하기 때문에 fopen을 막아놓은 경우에도 시원하게 긁어오는 등 외부 사이트 크롤링과 파싱에서 탁월한 성능을 보여주기 때문에 저도 자주 애용하고 있는데요. 심지어는 로그인이나 특정 매개변수를 POST로 submit해 집어넣어야 하는 페이지에도 적용할 수 있는 등 쓰임새가 참 다양합니다. 그런데 보통 이 크롤링 작업은 외부 사이트의 내용을 어떻게 잘 발라내느냐가 관건이 되기 때문에 긁어오는 것보다도 긁은 다..

IT 전용글 2014.10.14