파이썬을 이용하여 데이터를 수집해보는 일들을 해보도록 하겠습니다.
저는 다양한 크롤링 방법중 스크래피를 활용하여 데이터를 활용해보도록 하겠습니다.
(이 글은 개발자를 위한 파이썬을 공부하면서 ^^ 제가 정리한 내용입니다~! )
저는 python을 잘 다루지는 못하지만, 쉽게 따라할 수 있도록 되어있어 편리한것 같습니다
그럼 한번 학습해보도록 하겠습니다 ~!
1. 스크래피 설치하기
스크래피는 크롤링 프레임워크입니다. 사실, 보다 간편하게 크롤링을 할 수 있는 기능들이 있지만, 스크래피를 하는 이유는 보다 넓은 기능들이 존재하기 떄문에, 스크래피를 사용하여 크롤링을 해보도록 하겠습니다 ~!
참고로 저는 pycharm으로 개발 환경을 구축했습니다~!(윈도우)
python을 사용하기 위해서는 anaconda / pip 와 같은 것들은 어느 경로에서도 사용이 가능하도록 환경변수를 설정 해주시는게 좋습니다.
1. 스크래피 프로젝트 설치 및 생성하기
- pip install scrapy
scrapy를 쳐보시면 아래와 같이 사용 가능한 옵션들이 나타나는걸 보실 수 있습니다~!
Usage:
scrapy
[options] [args]
Available commands:
bench Run quick benchmark test
check Check spider contracts
crawl Run a spider
edit Edit spider
fetch Fetch a URL using the Scrapy downloader
genspider Generate new spider using pre-defined templates
list List available spiders
parse Parse URL (using its spider) and print the results
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version
view Open URL in browser, as seen by Scrapy
Use "scrapy
-h" to see more info about a command
이제 프로젝트를 생성하기 위해서~
scrapy startproject hanbit_media 라는 프로젝트를 실행합니다~!
(책에서는 한빛 미디어 홈페이지에서 글을 스크랩하기 떄문에 폴더명을 hanbit_media로 만들었습니다)
자, 이제 프로젝트를 만들었으니 필드값을 정해서 하나씩 값들을 지정해보도록 하겠습니다.
'프로그래밍 > Python' 카테고리의 다른 글
Visual Studio Code 단축키 정리 (0) | 2019.08.07 |
---|---|
파이썬 웹 개발 - Django 장고 설치환경 [Window] (0) | 2019.08.04 |
Django-react 개발환경 구축 (Frontend) (0) | 2019.06.02 |
Django-react 개발환경 구축하기 (Backend편) (0) | 2019.06.01 |
Pycharm 모듈 설치 에러 및 PIL 모듈 설치 방법 (0) | 2018.11.25 |