前言
1
数据的读入与处理
1.1
数据读入以.dta格式为例
1.2
数据简单处理
2
表格
2.1
gtsummary包
2.2
table1包
3
用ggplot2制图
3.1
读取数据
3.2
散点图 抖散图 箱线图 直方图
3.3
密度图 提琴图 山峦图 椭圆图 2D密度图
3.4
图的分面{facet_grid() / facet_wrap()}
3.5
图上标注文本
4
自动报告
4.1
使用方法
5
模型可视化
5.1
PartI
5.2
PartII
6
简单的机器学习
6.1
决策树模型
6.2
随机森林模型
6.3
预测身价
7
英文文本分析
7.1
整洁文字
7.2
词频count
7.3
词云
7.4
分析单词和文档频率:tf-idf
7.4.1
简.奥斯汀小说中的术语频率
7.4.2
Zipf’s law
7.4.3
bind_tf_idf ()函数
7.5
案例分析:挖掘NASA元数据
8
中文文本分析
8.1
安装拓展包和导入
8.1.1
安装拓展包
8.1.2
导入文档,建议用记事本,格式为UTTF-8 运用scan函数
8.2
结巴分词处理
8.2.1
制作词表
8.3
运用SQL
8.3.1
安装并载入sqldf程序包 >group by“根据一定的规则进行分组”,通过一定的规则将一个数据集划分成若干个笑的区域,然后针对若干个小区域进行数据处理 >count(1)来计数 >select检索数据
8.3.2
按顺序排列
8.3.3
抽取频次为前一百的词语
8.4
绘制词云
8.5
词频可视化
8.5.1
barplot绘制排名前30的高频词 第一个参数源为数据源,第二个参数源为标签
8.5.2
利用pie函数绘制饼图对高频词语进行可视化
References
2020级创新班R课程内容总集(修改版)
References