9 第九章：如何进行基本的数据分析: 中介分析

9.1 process

今天我们会讲解SEM的一些简单的操作和画图，画图的部分甚至可以掰开讲：怎么画一个直方图怎么画一个展示反应时的图，箱线图和小提琴图，以及云雨图。

在接下来的课程中，第11章想要达到一个目标是我们的能够做出来图可以符合格式，大家投稿的时候就可以直接用。第12章的话实际上就是把第10章和第11章的内容进行结合，我们会教授一个papaja包，这个包适合我们APA格式的一个写作。如果我们能够把自己的代码和数据和文字全部整合到一个东西里面去，这样的话就可以直接生成一个APA的手稿，这是12章我们想介绍的。第十三章我们原本想讲github的使用，但是考虑到github可以在后续的学习中反复使用练习，我认为可以移动到下周来讲，然后第14章有一些干货的内容，比如如何对效应量进行综合，这是在meta analysis常用的工作如何进行样本量的规划，这里面最重要的是power analysis。

这里面可能还会涉及到一些大家以前从来没有——至少我在读研究生的时候从来没有的一个东西就是我们如何在计划研究的时候就把整个代码写出来。我们一般来说是自己先有了数据，然后再去写代码，我们现在我们课题组慢慢的做法是变成一开始就做预注册，做完预注册了以后，就会自己开始写一些伪数据，我们叫假数据，它的结构是跟我们的实验的设计是一模一样的，那么这个时候我们就开始用这样的假数据把自己分析数据的代码就写完，也就是在你没有收集数据之前，就可以把代码写完。

其实我用SEM用的很少，主要都是认知心理学舒颜，神经成像之类的东西，很少去做问卷相关的研究。但是我其实对传统的SEM很感兴趣。这里推荐一些经典的文章，比如Baron和Kenny1986年关于中介调节分析的文章。那么process是Andrew Hayes，引进的一个很重要的一个工具包，这个工具包某种程度上解放了绝大部分人，他的引用量也非常高那么process这个SPSS插件出来以后，应该是给很多人都非常大的帮助。是2012年左右的时候，他开始还是小的一些工具包，后来就变成了一个插件，后来就越来越好用。大家可以看到，整个R的这个生态体系它其实是一个后起之秀，即便如此因为R是一个开放的生态系统所以只要有足够的人对它感兴趣的话很快它就能够迅速的发展。

首先是导入这两个包，我们用之前一样的方式来去安装，我建议大家就是现在在讲课的时候，如果手头上有这个代码的话可以把这个地方先运行一下，因为你可能需要安装新的包。

# 检查是否已安装 pacman
if (!requireNamespace("pacman", quietly = TRUE)) {
  install.packages("pacman") }   # 如果未安装，则安装包

# 使用p_load来载入需要的包
pacman::p_load("tidyverse", "bruceR", "performance", "lavaan", "lavaanPlot")

导入我们的数据

df.pg.raw <-  read.csv('./data/penguin/penguin_rawdata_new.csv',
                       header = T, sep=",", stringsAsFactors = FALSE) %>%
  dplyr::select(., age, language, avgtemp,socialdiversity, DEQ,
                   starts_with("ALEX"),
                   starts_with("ECR"),
                   starts_with("HOME"),
                   starts_with("KAMF"),
                   starts_with("SNI"),
                ) 
# 这些包含原始题目的数据集，将在SEM lavaan中直接使用

刚才助教应该发给大家大家把它保存在我们原来这个data Pangolin里面然后叫Pangolin raw data new 为什么用这个新的数据呢因为它这里面是有一个有一个新有一个变量我们原来那个数据里面没有包含那么假如我们对某几个问卷感兴趣我们就把它都选出来然后把其他的这个变量都忽略掉那么我们这里大概就是要做两个工作一个工作就是我们要演示两个工作一个工作就是我们重复一下艾特曼在2018年发表的 Clever Psychology那篇文章中的一个分析也就是我们这个数据来源 Pangolin的数据来源它本来就是在2018年那个文章中是以最主要的一个研究性的文章对吧那么我2019年那个文章实际上是把这个数据进行一个描述那么第二个工作就是说我们可不可以对一些问卷来对它的这个问卷的结构进行一个确认那么采用CFA的方式那么或者我们对不同的问卷进行的关系对吧有没有这个中介调节采用ICM的方式来做一个分析这大概就是我们要展示的这几个工作这个地方是一个数据运输里的过程就是我们怎么去求那么在这个我们这次增加里面不仅仅有一个我可以给大家看一下我们这个数据里面不仅仅增加了一个就是叫full data 还有一个new data 这个new data是我们对full data进行处理的然后还有一个codebook 就是关于这个应该是最就是数据最全的一个但是它都是原始数据这个是最全的一个数据那么刚才孟征发给大家那个亚述包里面应该有那么我们还有一个codebook 就是对这个数据本身的一个描述这个数据它的每一个column 代表的是什么东西那么这里的有一些数据是没有的我们把它给去掉了因为它可能涉及到背后的隐私的问题那么这里会涉及到一些问卷比如说这个叫做Alex 它实际上是一个关于那个肃清障碍的一个问卷它的这个参考文献是在这就是叫做Toronto Laximedia 这个我还不知道什么 Alex Thymia Scare 然后这个ERC是关于这个情绪的和attachment的一个问卷这个home就是说对家的依恋是一个互联网出现以后也不是互联网出现就是也是一个跟这个依恋相关的一个问卷那么这个KAMF是一个新的问卷它实际上是关于人的会不会产生这种感动的一个情绪那么我们就是说在process里面它实际上是一个简化的一个SEM 它只需要对我们变量的题目内部求一个平均分然后这样就可以了那么它不需要去了解这个每一个问卷里面的item 和它的维度以及和整个问卷是不是有对应的以及它的loading是什么那么为什么说它是一个简化的模型呢这里可能涉及到一个问题就是说我们到底当我们用总分代表一个量表得分的时候它代表的到底是什么它实际上代表的就是每一个item在这个维度上面的loading完全是1对吧它完全是相等的这是一个非常强的assumption 然后也是一个非常简化的一个模型那么通过SEM的一些CFA的分析的话我们其实可以更好的估计它在每个潜变量就是我们的一个问卷它可能是一个测量了一个或者多个潜变量的一个问卷一个工具对吧那么当我们用总分代表一个潜变量或者一个维度的得分的时候我们认为所有的item在维度上面或者潜变量上的loading对吧这个负荷都是1 但是用LCM的话我们可以把更加精准的建构出来对于假如说我们要用process对吧那我们就直接就把每一个维度上的得分求出来当我们这里没有用process 我们用process没有做他们这些问卷的一个处理而是去复制了Pandroid data里面的结果感觉我应该需要展示一下原来那个论文才对一会儿增加一下那么在原来这个论文里面它大概就是有这么一个关系的一个结果那么我可以简单的跟大家说一下我们这个项目对吧原来这个数据项目叫做Human Computing Project Computing是什么是企鹅对吧人类企鹅计划它为什么要起这么一个名字呢它就是觉得我们人类就像企鹅一样有一个共同的一个体温调节因为企鹅它生活在一个非常寒冷的地方对吧它经常就是为了降低它取暖的能耗它会很多企鹅在一起群聚到一起这样的话就是说每个在一群里面每个企鹅它都能够保持着一个相对恒定的体温但是对于这个群体当中的每一个个体来说它的能耗是比较小的大家知道我们要维持一个恒定的体温的话我们是要去燃烧一些卡路里对吧那么如果说我们只有一个个体的话它维持一个恒定的体温所需要的卡路里是非常多的这样对于人类来说现在好像卡路里是一个多余的东西但是对于动物来说当你在野外的话其实你要去获得能源获得食物本身就是一个有动物意志在做的一个事情对吧所以它需要去尽量减少这个能耗所以它就会在一起形成这么一个机制那么这个Human Pending Project想说就是说我们在人类的身上是不是也找到这种我们做哺乳动物在演化当中形成的这种群体体温条件的一些我们说一些traces 就是我们在演化当中我们现在在现代化社会里面对吧但是我们的身心上面可能还是遗留了一点点我们原来做哺乳动物通过群体来调节我们体温的这些遗迹对吧所以这是这个项目的一个总的一个大胆理论那么在这个过程当中它做了一个什么工作呢就是测量了很多问卷并且测量了每个人的一个核心体温这个核心体温就是说我们自己 Cold Body Temperature 这个时候在文章里面它是用CDP 就是Cold Body Temperature 我们这里是用Belian Temperature 就是Average Temperature 那么这个Cold Body Temperature是什么就是我们身体核心所需要的一个温度身体的核心是哪些呢基本上就是内脏对吧也就是说我们如果内脏不能够保证这个恒定的体温的话基本上就会直接影响到你的生命的安危包括你的大脑所以对哺乳动物来说最重要的其实有的时候像比如说手对吧你的手和脚它即便失温了之后它可能也不会影响你的生存然后可能手动坏了对吧有的人他比方说就结织掉了那么它是会影响但是它不会影响生存它还是可以继续活下来对吧但是如果你的核心体温如果你不能保持恒定的温度的话那就就是30的一个问题了所以最感兴趣的就在这个语言内容中最感兴趣就是核心体温的温度那么我们想如果说想要知道这个人他我们人类上是不是遗留了这种群体调节体温的遗迹的话那我们应该关注的是什么就是我们的社会关系对吧你跟社会群体关系相关的一些变量它会不会影响体温这就是他最关系的 Hans Eisenberg最关系的一个问题所以当时他测了很多跟社会关系社会网络相关的一些变量就比方说你有你在过去的一个月当中对吧你跟多少人联系然后你比方说平时上班的时候跟多少人联系下班之后跟多少人联系周末跟多少人联系跟你的父母跟你的你是不是跟你的比方说partner对吧住在一起等等就有很多这样的问题那么通过这个问题他可以得到三个社会关系网络的一个指标一个指标就是叫做social diversity 就是你的社交网络是不是很多元化还是说你的社交网络就很单一然后你就只跟父母跟家人交往对吧那你的这个社交网络就很单一然后你有家人有同事然后还有你自己比方说你有很多个兴趣爱好对吧你跳舞有跳舞的朋友你唱歌有唱歌的朋友然后你下棋有下棋的朋友然后等等等等如果说你的这个关系网络非常的就是不同的在不同的场合跟不同人交往对吧这样的话就会形成一个很diverse的一个social network 那么这个social diversity 就指的是这个东西然后他也测量了比方说你的身高体重等等等等然后还测每个人他和赤道说隔的这个距离 the distance from the equator 就是你赤道这个距离因为你赤道隔得越远的话就意味着你这个纬度越高对吧纬度越高就意味着当地的气温本身是越低的