笔记 6 可复算性研究

6.1 Replication

科学研究的的终极标准是研究证据可独立发现与验证
并非所有结果都可以重复

6.2 Reproducible

可重复的数据分析过程与代码
数据维度增高
现有数据可被整合入更大的数据集
计算机条件允许

6.3 研究流程

6.4 数据分析步骤

6.5 数据分析文件结构

Data
Raw data 来自网络在Readme里注明url 描述日期
Processed data 命名体现处理过程 Readme里注明处理过程
Figures
Exploratory figures 不必考虑装饰
Final figures 只考虑装饰
R code
Raw scripts 不必过分注释版本控制不一定用得上
Final scripts 注释清晰包括处理细节只包括文章需要费分析
R Markdown files (optional)
Text
Readme files 按步骤记录清晰
Text of analysis 包括前言方法结果结论讲故事有引用

6.6 文本化统计编程-Knitr

markdown是轻量化结构语言
R markdown 是轻量化统计结构语言
文本+代码块逻辑清晰
文本语言可用latex markdown
代码块可用R
不用保存输出
可缓存结果 cacher包

6.7 结果通讯

研究论文的信息层级
题目/作者名单
摘要
主体/结果
支持材料/细节
代码/数据
邮件汇报的信息层级
题目最好一行一句
描述问题如何实验总结发现
简明扼要
如果有问题写成yes/no形式
附件齐全严谨

6.8 检查列表

数据选取得当
问题简单专一
队友靠谱
兴趣驱动
不要手动处理数据全部交给计算机
少用交互界面用命令行界面并记录历史
使用版本控制处理降速而冷静
记录软件操作环境 sessionInfo()
不保存结果保证数据可重复
使用随机数要说明种子
原始数据-处理数据-分析-报告
考虑从哪一步开始数据重复性变差

6.9 基于证据的数据分析

可重复性研究不保证结果是对的
发表后研究存在动因应关注数据生成前的过程
设定基于证据研究的路线图
减少研究人员的自由度
提出区域研究范式