본문 바로가기

Do it! 공부단

[4회차] Do it! 쉽게 배우는 R 텍스트 마이닝 / p.231~p.340 / 7장 텍스트 마이닝 프로젝트: 타다 금지법 기사 댓글 분석, 8장 텍스트 마이닝 프로젝트: 차기 대선 주자 SNS 여론 분석, 9장 텍스트를 효율..

반응형

 

 

오늘은 마지막 스터디 날이다. 지금 까지 배운 내용으로 타다 금지법 기사 댓글 분석과 차기 대선 주자 SNS 여론 분석 실전 프로젝트를 실습 해본다. 타다 금지법 분석 절차는  단어 빈도를 구한다. 그리고 막대 그래프를 만들어 주요 단어를 표출한다. 처음 시작은 데이터 전처리로 시작한다. 타다 금지법 관련 네이버 뉴스 기사에 달린 댓글을 전처리 한다. KoNLP 패키지를 이용해 띄어 쓰기가 1개 이상 사용된 댓글만 추출한다. 그리고 댓글에서 명사를 추출해 빈도를 구한 다음 가장 높은 상위 30개만 출력합니다. 그중에서 다시 불용어를 제거한 다음 상위 20개만 추출해서 막대 그래프로 만듭니다. 다음 공감, 비공감 댓글 비교하기는 도 기본적인 전처리는 앞과 같습니다. 단어 빈도를 구한 다음 데이터를 wide form으로 변형해 로그 오즈비를 구합니다. 공감 비공감 카테고리에서 상대적으로 중요한 단어를 추출해 다시 막대 그래프를 만듭니다.

차기 대선 주자 SNS 여론 분석은 지금 까지 배워온 내용을 가지고 SNS언급량 추이, SNS 이슈, 감정 단어, 감정 경향, 감정 추이, 긍정, 부정 트윗 단어 비교하기등 각 장에서 배운 유닛을 하나로 합쳐서 프로젝트로 분석 합니다. 1장부터 7장까지 내용을 8장에서 모두 보여줄수 있습니다. 그리고 마지막 9장은 부록 같은 장으로 텍스트를 효율적으로 분석하는 방법으로 데이터 수집하기, 텍스트 분석 품질 높이기 등 유용한 꿀팁을 얻을수 있습니다. 쉽게 배우는 R 텍스트 마이닝으로 실제 프로젝트에서 많이 사용하는 텍스트 분석 기법을 배울수 있어서 좋았습니다.

 

 

 

반응형