책이야기

[리뷰]파이썬 라이브러리를 활용한 텍스트 분석

Ericlee 2022. 11. 27. 23:34
반응형



[도서 소개]

텍스트마다 적절한 분석 기법은 따로 있다!

당신의 경쟁력을 완성할 텍스트 분석 전략서

텍스트에서 좋은 정보를 찾는 이가 뛰어난 경쟁력을 갖춘다. 머신러닝 기반 자연어 처리 기술이 발전함에 따라 다양한 텍스트 분석 기법이 속속 등장하고 있다. 수많은 기법 중에서 어떤 방법을 언제 어떻게 사용해야 유용한 정보를 얻어낼 수 있을까? 이 책은 유엔총회 일반토의 연설문부터 트위터, 로이터 뉴스 기사 등 다양한 데이터셋을 사용하여 상황별로 가장 유용한 텍스트 분석 기법을 소개한다. 실제 모범 사례를 기반으로 상황에 맞게 설계한 텍스트 전처리 파이프라인 구축, N-그램 분석, 텍스트 벡터화 등 다양한 전략으로 텍스트 분석과 자연어 처리를 정복해보자.

 

[대상 독자]

- 갖고 있는 텍스트에 적합한 분석법을 판단하려는 개발자

- 빠르게 초기 결과를 만들어서 프로젝트의 성공 가능성을 검토하려는 기획자

- 문제를 풀기 위한 베이스라인을 빠르게 작성해야 하는 데이터 과학자

 

[주요 내용]

- API와 웹페이지에서 데이터를 추출하는 법

- 텍스트 데이터를 통계 분석과 머신러닝에 사용할 수 있도록 전처리하는 법

- 머신러닝을 활용한 분류, 주제 모델링, 요약 기법

- 단어 임베딩을 활용한 구문 유사도 시각화 방법

- 명명된 개체와 그 관계를 기반으로 한 지식 그래프 구축법

 

[추천사]

 

  • K.V.S. 딜립 (그레이아톰 개발자)
    첫 리서치 때 이 책이 있었다면 큰 도움이 되었을 겁니다. 탄탄한 기초와 수많은 연구를 토대로 머신러닝을 비즈니스 프로젝트에 접목할 만한 예제가 많아 매우 실용적입니다.
  • 크레이그 트림 (캐주얼리티 링크 시니어 엔지니어)
    엔지니어링 분야의 체계적인 요구와 데이터 과학의 반응적 특성을 매끄럽게 결합했습니다. 기업 프로젝트에 도입 가능한 해법과 혁신적인 기술, 탐색 시나리오를 균형 있게 소개합니다. 실력을 한 단계 높이고자 하는 데이터 엔지니어에게 추천합니다.
  • 니란트 카슬리월 (Verloop.io)
    구글링한 결과를 그대로 옮겨 적고 제대로 돌아가기만을 바랐다면, 이 책을 읽고 나서는 프로젝트를 완성할 코드를 바로 떠올릴 수 있을 겁니다. 소개하는 전략마다 명확한 이름이 붙고 코드를 중심으로 한 설명 덕분에 시간과 수고를 덜게 됩니다.
  • 수딥 로이 챠우더리 (Eugene.ai 창업자 겸 CEO)
    이 책은 오늘날 생산 시스템에서 수행되는 텍스트 분석 및 NLP 분야에 활용할 유용한 방법과 기술을 빠짐없이 포괄적으로 살펴봅니다. 현업에서 영감을 받은 데이터셋과 사용 사례를 통해 대규모 조직에서 마주할 복잡한 비즈니스 문제의 해결 방법을 통찰하게 됩니다.



[서평]

 이 책은 데이터 과학자와 개발자가 텍스트 분석 및 자연어 처리를 비즈니스에 쉽게 도입할 수 있게 도와준다. 비즈니스에서 활용할 수 있는 전략을 소개하고 이를 직접 적용할 수 있는 솔루션에 대해서 배울수 있다. 전략은 문제에 일반적으로 적용할 수 있는 해법으로, 쉽게 복사하고 조정할 수 있는 템플릿을 제공해 해결하려는 문제에 코드를 재사용 할수 있다. 현업에서 실제 도입할 수 있는 모든 전략은 데이터 분석, 자연어처리, 머신러닝 전용 파이썬 프레임워크를 사용하고 기본적인 모델과 알고리즘을 배울수 있다. 파이썬 라이브러리를 활용한 텍스트 분석에서는 자연어 처리 모델에 대해서는 자세히 다루지는 않지만 입문하는데 필요한 정도의 기본 내용은 다루고 있다. 다양한 솔루션 접근 방식을 설명하고 각각의 장단점에 대해서 배울수 있다. 특정 종류의 문제에 대해서 해결하는 방법을 배우면서 데이터 및 요구 사항에 맞게 변경해 코드를 재사용 할수 있는 응용력을 기를수 있을것이라 생각한다. 

 

 "한빛미디어 리뷰어 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

반응형