본문 바로가기

프로그래밍/Python

[파이썬 크롤링] #1. 크롤링이란 무엇일까요?

반응형

파이썬 크롤링 시작

 

최근 크롤링에 대해서 많이들 관심을 가지고 있습니다. 사실 최근이라기 보다는 오래 되긴 했는데,

크롤링을 하는 사람들이 많지 않다가~ 최근에 넓게 크롤링을 사용해주시는 것 같아요.

이건 아마 개발자가 주로 사용하다가, 비개발자들도 쉽게 크롤링을 사용 할 수 있기 때문이지 않을까요?

 

이처럼 비개발자들도 크롤링을 하는 이유는,

업무를 하면서 데이터를 수집이 필요할 때, 쉽고 빠르게 데이터를

얻어 올 수 있는 아주 유용한 방법이기 때문이지 않을까요?

 

◎ 데이터 수집 방법의 종류

 

데이터를 수집하는 방법에는 크게 두 가지가 존재합니다.

 1. API를 사용해서 데이터를 쉽게 수집

 2. 웹브라우저의 데이터를 분석하며 데이터를 추출

 

 *API는 간단히 사이트를 운영하는 곳에서 내가 가지고 있는 데이터를 쉽게 공유해주는 것들을 이야기 합니다.

 즉, 내가 해당 사이트에 데이터를 요청하면 데이터를 제공해주는 방법을 이야기하죠.

 

API를 사용하는 경우에는 사이트마다 API를 무료로 제공해주는 곳이면 쉽게 사용할 수 있지만,

만일 API를 제공하지 않는다면... 데이터를 수집하는게 상당히 어렵겠죠?

이럴 때 웹사이트에서 데이터를 수집하는 크롤링을 해야합니다.

 

크롤링은 한 페이지만의 데이터를 크롤링 하는 방법부터 여러 웹 사이트를 돌아 다니며 매일 데이터를 수집하는 크롤러까지 여러 크롤링이 존재합니다.

 

이번 포스팅에서는 웹 사이트 한페이지의 데이터 수집부터, 다양한 사이트 데이터 수집까지 모두 알아 보도록 해보겠습니다. 그리고 추가로 API를 사용해서 데이터를 얻어오는 방법까지 모두 다뤄보도록 하겠습니다.

 

그리고, 이를 모두 사용하는 언어는 가장 많은 인기를 얻고 있는 언어인 PYTHON을 활용하여 진행하도록 하겠습니다.

 

반응형