본문 바로가기

책이야기

[리뷰]파이썬으로 웹 크롤러 만들기

반응형

 

데이터를 분석 하기 위해서는 먼저 데이터 수집을 해야 합니다. 웹 사이트에서 효율적으로 데이터를 수집하거나, 자동으로 ‘크롤링과 스크레이핑’이 필요합니다. 웹 사이트에서 데이터를 추출하는 것은 어려운 작업이 아니지만 다양한 종류의 웹 사이트에서 자신이 원하는 데이터를 추출하려면 많은 노하우가 필요합니다. 이 책에서는 파이썬 라이브러리를 이용하여 아주 간단한 웹 크롤러를 만드는 것으로 시작해서 HTML, API등 웹 기술의 기초부터 데이터 정제 및 저장 NLTK 처리, 이미지 및 텍스트 인식 등 고급 기법 까지 알려줍니다.

 

목차 내용

1부(1~6장) 스크레이퍼 제작 : 웹 스크레이퍼 소개, 고급 HTML 분석 기법, 크롤링 기초, 웹 크롤링 모델, 스크레이피 , 데이터 저장에 대해서 배웁니다.

2부(7~18장) 고급 스크레이핑 : 문서 읽기, 데이터 정제, 자연어 I/O, 폼과 로그인 뚫기, 자바스크립트 스크레이핑, API 크롤링, 이미지 처리와 텍스트 인식, 스크레이핑 함정 피하기, 스크레이퍼로 웹 사이트 테스트하기, 병렬 웹 크롤링, 원격 스크레이핑, 웹 스크레이핑의 합법성과 윤리에 대해서 설명합니다.

 

파이썬으로 웹 크롤러 만들기 2판은 기본 1판 보다 4장이 더 추가가 되어 총 18장으로 구성이 되어 있습니다. 웹 크롤링 기술에 대해 설명 하고, 데이터 정제, 디비 저장등 웹 프로그래밍 스킬을 향상하는데  좋은 주제라고 생각합니다. 그리고 웹 크롤링에 대한 법률적인 사항과 윤리적인 사항에 대해서도 잘 설명하고 있어 웹 크롤러를 악용하지 않도 설명합니다. 출퇴근 시간에 지하철에서 책을 재밌게 읽어 시간 가는줄 몰랐습니다. 초보자가 읽기에 쉽게 설명이 되어 있고 다양한 주제에 대해 다루고 있는것에 비해 책이 얇아 딥하게 내용을 다루지 못한 점이 아쉬웠습니다. 하지만 다양한 주제를 다루면서 충분히 각 장별로 내용을 설명했다고 생각합니다. 데이터 분석로 데이터 수집을 자동으로 하고 싶은 분이나 파이썬으로 웹 크롤링을 하고 싶은 분들에게 이 책을 권합니다.

 

반응형