第 2 章 学科结构与发展

2.1 PROS

关于文献计量的数据库很多,比如PROS,Arxiv等等,对PROS和Arxiv数据集的分析,另外单独介绍。

2.2 Web of Science

我们选择Web of Science,原因是因为当前ESI学科是各高校关注的热点,而Web of Science数据库是ESI的上游数据库,挖掘的空间更大。

ESI与Web of Science的关系图.

图 2.1: ESI与Web of Science的关系图.

Web of Science数据库的题录数据结构如下表:

2.3 数据集的构建

由于wos网站限制每次只能下载500条记录,因此每个学校的题录文件(一个文件夹)存放不止一个txt文件。具体文件结构如下:

除了题录数据,还包括辅助的数据集

编号 名称 简介 变量数量 共有变量
1 web of science wos题录 13 University,ISSN
2 sichuan_shool_encn2.csv 四川高校的名称 2 University
3 esi_plus_cas_IF_set.rds esi期刊学科分类 11 ISSN
中科院学科分类
是否中国SCI期刊
期刊影响因子等

接下来,我们来读取规整文件

# Load Packages
library(tidyverse)
library(here)
library(fs)
library(knitr)
library(kableExtra)

构建读取相应文件的子函数

read_plus <- function(flnm) {
        read_tsv(flnm, quote = "", col_names = TRUE) %>% 
        #or
        #read_delim(flnm,  delim="\t" , quote = "", col_names = TRUE) %>% 
        select(AU, AF, SO, DE, C1, RP, FU, CR, TC, SN, PY, UT) %>% 
        mutate(University = flnm %>%                 # 加入了学校名
                            str_split("/", simplify = TRUE) %>%
                            .[, length(.) - 1] %>%   # 倒数第二列
                            str_sub(start = 4)
               ) 
}
"G:/Guide_DS_R/63R4IS/data/Record/sichuan/01_Chengdu_Univ_Technol/1-500.txt" %>% 
   str_split("/", simplify = F) %>% 
   map_chr(.,
     ~.x[length(.x) - 1]
     )
## [1] "01_Chengdu_Univ_Technol"

依次迭代读取

tbl <- here("data", "Record", "sichuan") %>% 
  dir_ls(regexp = "*.txt", recursive = TRUE) %>%  
  map_dfr(~read_plus(.))
tbl