R로 하는 텍스트마이닝
2021-07-01
Welcome
0.1 머리말
0.2 구성
텍스트마이닝에 필요한 R의 기초, 분석의 전단계, 그리고 분석 등으로 구성돼 있다. R에 익숙하면 곧바로 분석 전단계인 “4. 틀잡기”부터 시작해도 된다.
0.2.0.1 R기초
R의 설치, 데이터유형과 구조, 시각화의 기초적인 내용과 R과 RStudio를 이용하는 과정에서 겪을 수 있는 문제해결 방법에 대해 다뤘다.
- 도입
- 준비1
- 준비2
0.2.0.2 분석 전단계
텍스트마이닝의 전반적인 구조와 자료 수집과 불러오기, 정제(전처리)에 필요한 다양한 도구(stringr, dplyr, tidyr, purrr, regex 등)의 학습 및 정제(전처리)하는 방법에 대해 학습한다.
- 틀잡기
- 수집: 불러오기
- 정제도구
- 정제(전처리)
0.2.0.3 분석 I
단어의 빈도를 계산해 텍스트에서 의미를 추론하는 방식을 학습한다. 사전(감정사전)을 이용하는 방법, 상대적인 빈도(tf-idf, 가중로그승산비 등)를 계산하는 방법, 기계학습의 비지도학습(주제모형: topic models)으로 계산하는 방법 등을 학습한다.
- 분석1: 감정어 빈도
- 분석2: 상대빈도
- 분석3: 주제모형1
- 분석4: 주제모형(공변인)
0.2.0.4 분석 II (예정)
기계학습의 지도학습 방식에 대해 학습한다.
- 지도학습1
- 지도학습2
- 딥러닝1
- 딥러닝2
0.3 도움받은 자료
R for Data Science by Hadley Wickam and Garrett Grolermund
Text Mining with R by Julia Silge and David Robinson
Supervised Machine Learning for Text Analysis in R by EMIL HVITFELDT AND JULIA SILGE
Doit_textmining by 김영우
데이터과학입문 by statkclee
데이터사이언스 스쿨 by ratsgo
R을 이용한 퀀트 투자 포트폴리오 만들기 by 이현열
Speech and Language Processing (3rd ed. draft)
Bilogical Data Science Workshops
Carpentries Software Carpentry Data Carpentry
The online version of this book is licensed under the Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.