본문 바로가기

프로그래밍/Python

파이썬 크롤링 어플리케이션 만들기(1)

반응형

파이썬을 이용하여 데이터를 수집해보는 일들을 해보도록 하겠습니다.

저는 다양한 크롤링 방법중 스크래피를 활용하여 데이터를 활용해보도록 하겠습니다.

(이 글은 개발자를 위한 파이썬을 공부하면서 ^^ 제가 정리한 내용입니다~! )

 

저는 python을 잘 다루지는 못하지만, 쉽게 따라할 수 있도록 되어있어 편리한것 같습니다
그럼 한번 학습해보도록 하겠습니다 ~!

 

1. 스크래피 설치하기

스크래피는 크롤링 프레임워크입니다. 사실, 보다 간편하게 크롤링을 할 수 있는 기능들이 있지만, 스크래피를 하는 이유는 보다 넓은 기능들이 존재하기 떄문에, 스크래피를 사용하여 크롤링을 해보도록 하겠습니다 ~!

참고로 저는 pycharm으로 개발 환경을 구축했습니다~!(윈도우)
python을 사용하기 위해서는 anaconda / pip 와 같은 것들은 어느 경로에서도 사용이 가능하도록 환경변수를 설정 해주시는게 좋습니다.

1. 스크래피 프로젝트 설치 및 생성하기
- pip install scrapy

scrapy를 쳐보시면 아래와 같이 사용 가능한 옵션들이 나타나는걸 보실 수 있습니다~!

Usage:
  scrapy 

 [options] [args]

Available commands:

  bench         Run quick benchmark test

  check         Check spider contracts

  crawl         Run a spider

  edit          Edit spider

  fetch         Fetch a URL using the Scrapy downloader

  genspider     Generate new spider using pre-defined templates

  list          List available spiders

  parse         Parse URL (using its spider) and print the results

  runspider     Run a self-contained spider (without creating a project)

  settings      Get settings values

  shell         Interactive scraping console

  startproject  Create new project

  version       Print Scrapy version

  view          Open URL in browser, as seen by Scrapy

Use "scrapy 

 -h" to see more info about a command

이제 프로젝트를 생성하기 위해서~

scrapy startproject hanbit_media 라는 프로젝트를 실행합니다~!
(책에서는 한빛 미디어 홈페이지에서 글을 스크랩하기 떄문에 폴더명을 hanbit_media로 만들었습니다) 

자, 이제 프로젝트를 만들었으니 필드값을 정해서 하나씩 값들을 지정해보도록 하겠습니다.

반응형