본문 바로가기

Do it! 공부단

[2회차] Do it! 쉽게 배우는 R 텍스트 마이닝/ p.59~p.144 / 3장 비교 분석: 무엇이 다를까?, 4장 감정 분석: 어떤 마음으로 글을 썼을까?

반응형

 

 

두번째 텍스트 마이닝 스터디에서는 비교분석과, 감정분석에 대해서 공부를 했다. 먼저 비교분석에서는 문재인 대통령 연설문과 박근혜 대통령 연설문을 비교하였다. 먼저 빈도 단어를 각각 추출 하고 오즈비로 두 조건의 확률을 이용해 계산해서 중요단어를 비교하는 걸 배웠다. 그리고 세개 이산의 텍스트를 비교할때는 TF-IDF를 이요하면 된다는걸 알게 되었다. 4장에서는 감정분석을 배우는데 KNU 한국어 감성사전을 이용하는 방법을 배웠다. 먼저 단어 기준으로 토큰화하고, 단어에 감정점수를 부여 하고 그리고 문장별로 감정 점수를 합산하는 방법으로 감정분석을 하는 것이다. 그리고 댓글별 감정 분석이 실제 서비스에 한번 적용 하고 싶은 생각이 들었다. 그런데 댓글의 자료를 어떻게 가져오는지에 대한 내용이 없어서 네이버, 페이스북, 트위터 등 SNS의 댓글을 크롤링 하는 방법도 소개 하면 좋겠다는 생각이 들었다.

 

 

반응형