[Python] requests와 BeautifulSoup을 활용한 디시인사이드 크롤링
읽기전에 실습환경은 Jupyter notebook에 최적화 되어 있습니다. Python 크롤링에 자주 사용하는 requests 모듈과 bs4 패키지 내 BeautifulSoup을 활용하여 크롤링을 해보겠습니다. 저는 디시인사이드(DC) 사이트를 크롤링 해볼 것입니다. # moduel import import requests from bs4 import BeautifulSoup 먼저 수집할 갤러리를 결정하고, 사이트를 들어가 봅시다. 코드를 작성하지 전에 먼저 수집할 대상을 정해봅시다. 보통 수집할 대상은 목적을 위해 어떤 데이터들이 필요한지를 고려하여 결정합니다. 저는 글 번호, 글 제목, 글쓴이, 본문, 작성일, 조회 수, 추천 수를 수집하기로 결정했습니다. 크롤링의 기초는 URL을 파악하는 것에서부터..
2020.01.09