Python 데이터 분석(2)
-
[Python] 윈도우 작업 스케줄러를 활용한 웹 크롤러 만들기
들어가며 실습환경은 PyCharm Community Edition 2020.1 에 최적화되어 있습니다. Python을 이용하여 간단한 웹 크롤러를 만들고, 윈도우 작업스케줄러 기능을 활용하여 주기적으로 크롤링을 수행할 수 있도록 만들어보려고 합니다. 먼저 크롤링을 수행할 코드를 작성합니다. 저는 요새 기계식 키보드 하나에 관심이 있어서, 주기적으로 크롤링을 수행하여 원하는 키보드에 대한 최저가 가격을 수집하려고 합니다. 수집 대상 사이트는 네이버 쇼핑이고, 제품명을 파라미터(parameter)로 주어 제품명과 최저가 가격, 링크를 출력할 수 있도록 만들었습니다. #-*- coding: utf-8 -*- # moduel import import requests from bs4 import Beautiful..
2020.04.30 -
[Python] requests와 BeautifulSoup을 활용한 디시인사이드 크롤링
읽기전에 실습환경은 Jupyter notebook에 최적화 되어 있습니다. Python 크롤링에 자주 사용하는 requests 모듈과 bs4 패키지 내 BeautifulSoup을 활용하여 크롤링을 해보겠습니다. 저는 디시인사이드(DC) 사이트를 크롤링 해볼 것입니다. # moduel import import requests from bs4 import BeautifulSoup 먼저 수집할 갤러리를 결정하고, 사이트를 들어가 봅시다. 코드를 작성하지 전에 먼저 수집할 대상을 정해봅시다. 보통 수집할 대상은 목적을 위해 어떤 데이터들이 필요한지를 고려하여 결정합니다. 저는 글 번호, 글 제목, 글쓴이, 본문, 작성일, 조회 수, 추천 수를 수집하기로 결정했습니다. 크롤링의 기초는 URL을 파악하는 것에서부터..
2020.01.09