1 说明文档

通过现成的爬取+可视化分析+GPT文档解析工具,协助你快速了解一个陌生的研究领域 :]

这是武大费组的一次组会专题材料,希望能对路过的大家有所裨益XD

由于没有留言模块,任何问题欢迎上Urbanplayground公众号后台交流~

FeiTeam: A study group for all kinds of interesting stuff;)

1.1 WOS_Spider 爬取工具介绍

1.1.1 简介(Brief introduction)

金海:给点star吧~

本工具通过模拟用户操作,自动且重复地从Web of Science (WOS)导出文献信息来用于文献计量。用户可以自由设置要导出的文档数量,选择不同的导出文件格式并重命名导出的文件。该工具的原始创建者是CSDN博主:Parzival_, 目前还没有找到他的Github账户。我的主要工作是优化原始代码并使用更新版本的工具和更常用的Google Chrome浏览器来实现操作。请在转载时包含此声明和所有来源链接。

By lijinhai0804

1.1.2 下载及安装操作

  1. main.py是主文件,必须下载。merge.py用来将导出的不同excel表内容融合到一张表内,按需下载。driver install.py不一定会用得到,如果电脑里是最新的谷歌浏览器,且安装了最新的selenium库,不一定会需要driver install.py安装驱动,但是如果主程序运行报错,可以尝试运行driver install.py。

  2. 使用的软件及库版本:python 3.11;selenium 4.14;chrome 118.0.5993.89

  3. 代码中用到的库:selenium(必要)_manager。Pycharm可以扫描未安装的库然后来安装。

1.1.3 如何使用

  1. 在使用前main.py中代码末尾的主要函数的参数需要进行修改。url是复制已经检索好的WOS网址;record_num设置为下载篇数;download_path是下载文件储存地址(一定要是空文件夹);record_format是下载的文件格式,目前可以填excel、bib;reverse按时间降序排列,默认关闭。

  2. 建议不要在翻墙的时候使用。除非是在国外的大学就读。

  3. 第一次下载时,预留了10秒的时间手动更改所需的下载字段(即作者、摘要、参考文献这些),之后的自动下载都只会默认点击已经自定义好的选项,所以要在第一次下载时设定好

  4. 强烈建议连上校园网直接IP免登录进去WOS,如果做不到,则需要启用login函数(main.py中已经默认注释掉了)。

  5. 每次下载完后,记得把文件转移到别的地方,清空文件夹,再开启新一次的下载。

  6. merge.py融合的文件默认储存在代码所处的文件夹。

  7. 如果显示文件下载失败,可能是WOS的问题,换一个时间试试。


1.2 BiblioShiny 文献计量工具介绍

1.2.1 下载RStudio

1.2.1.3 BiblioShiny package install

install.packages("bibliometrix", dependencies=TRUE) ### installs bibliometrix package and dependencies
library(bibliometrix)   ### load bibliometrix package
biblioshiny()

web界面操作 bib格式不容易失败 信息有丢失也是正常的

  1. 选择Raw File
  2. 选择相应数据库(WOS/Scopus)
  3. 添加档案

1.3 本地部署GPT_Academic

视频教程(基于Anaconda)

1.3.1 GPT_AC简介与优缺点

  • 优点:可以本地部署、客制化API、精美的web界面、免费的强大插件、接入各大模型
  • 缺点:部署版本要求较高、无法提供进阶文档分析

GPT_Academic: ChatGPT/GLM提供实用化交互界面,特别优化论文阅读/润色/写作体验,模块化设计,支持自定义快捷按钮&函数插件,支持Python和C++等项目剖析&自译解功能,PDF/LaTex论文翻译&总结功能,支持并行问询多种LLM模型,支持chatglm2等本地模型。兼容文心一言, moss, llama2, rwkv, claude2, 通义千问, 书生, 讯飞星火等。

1.3.2 本地部署过程

1.3.2.1 下载项目

git clone --depth=1 https://github.com/binary-husky/gpt_academic.git
cd gpt_academic

1.3.2.2 配置API_KEY

config.py中,配置API KEY等设置,点击查看特殊网络环境设置方法Wiki页面

程序会优先检查是否存在名为config_private.py的私密配置文件,并用其中的配置覆盖config.py的同名配置。开发者建议在config.py旁边创建一个名为config_private.py的新配置文件,并把config.py中的配置转移(复制)到config_private.py中(仅复制修改过的配置条目即可)。

支持通过环境变量配置项目,环境变量的书写格式参考docker-compose.yml文件或者我们的Wiki页面。配置读取优先级: 环境变量 > config_private.py > config.py

1.3.2.3 安装依赖

选择I: 如熟悉python(python版本3.9以上,越新越好)

备注:使用官方pip源或者阿里pip源的临时换源方法:

python -m pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/

选择II: 使用Anaconda 步骤也是类似的 (https://www.bilibili.com/video/BV1rc411W7Dr)

conda create -n gptac_venv python=3.11    # 创建anaconda环境
conda activate gptac_venv                 # 激活anaconda环境
python -m pip install -r requirements.txt # 这个步骤和pip安装一样的步骤

1.3.2.4 创建一个Python虚拟环境

  1. windows CMD terminal

查看本机python版本(建议3.11版本)

python --version

下载最新3.11Python版本 https://www.python.org/ftp/python/3.11.0/python-3.11.0-amd64.exe

  1. 创建Python虚拟环境
python -m venv <name>
  1. 启动虚拟环境
python activate.bat
  1. 退出虚拟环境
deactivate

看到弹出前面有括号的框框就代表进入环境了

1.3.2.5 在环境中安装pip库

python -m pip install -r requirements.txt

如果延迟过高 尝试换源

python -m pip install --upgrade pip
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

1.3.2.6 设置本地代理地址与端口

127.0.0.1:10809

记得开魔法之后再设置

1.3.2.7 运行

python main.py

运行后be like:

WiKi页面:项目配置说明 · binary-husky/gpt_academic Wiki · GitHub


Copyright © 2024 UrbanPlayground WHU