高效文献计量工具介绍与部署教程
1 说明文档
通过现成的爬取+可视化分析+GPT文档解析工具,协助你快速了解一个陌生的研究领域 :]
这是武大费组的一次组会专题材料,希望能对路过的大家有所裨益XD
由于没有留言模块,任何问题欢迎上Urbanplayground公众号后台交流~
1.1 WOS_Spider 爬取工具介绍
1.1.1 简介(Brief introduction)
本工具通过模拟用户操作,自动且重复地从Web of Science (WOS)导出文献信息来用于文献计量。用户可以自由设置要导出的文档数量,选择不同的导出文件格式并重命名导出的文件。该工具的原始创建者是CSDN博主:Parzival_, 目前还没有找到他的Github账户。我的主要工作是优化原始代码并使用更新版本的工具和更常用的Google Chrome浏览器来实现操作。请在转载时包含此声明和所有来源链接。
By lijinhai0804
1.1.2 下载及安装操作
main.py是主文件,必须下载。merge.py用来将导出的不同excel表内容融合到一张表内,按需下载。driver install.py不一定会用得到,如果电脑里是最新的谷歌浏览器,且安装了最新的selenium库,不一定会需要driver install.py安装驱动,但是如果主程序运行报错,可以尝试运行driver install.py。
使用的软件及库版本:python 3.11;selenium 4.14;chrome 118.0.5993.89
代码中用到的库:selenium(必要)_manager。Pycharm可以扫描未安装的库然后来安装。
1.1.3 如何使用
在使用前main.py中代码末尾的主要函数的参数需要进行修改。url是复制已经检索好的WOS网址;record_num设置为下载篇数;download_path是下载文件储存地址(一定要是空文件夹);record_format是下载的文件格式,目前可以填excel、bib;reverse按时间降序排列,默认关闭。
建议不要在翻墙的时候使用。除非是在国外的大学就读。
第一次下载时,预留了10秒的时间手动更改所需的下载字段(即作者、摘要、参考文献这些),之后的自动下载都只会默认点击已经自定义好的选项,所以要在第一次下载时设定好。
强烈建议连上校园网直接IP免登录进去WOS,如果做不到,则需要启用login函数(main.py中已经默认注释掉了)。
每次下载完后,记得把文件转移到别的地方,清空文件夹,再开启新一次的下载。
merge.py融合的文件默认储存在代码所处的文件夹。
如果显示文件下载失败,可能是WOS的问题,换一个时间试试。
1.2 BiblioShiny 文献计量工具介绍
1.2.1 下载RStudio
1.2.1.2 Install RStudio
https://download1.rstudio.org/electron/windows/RStudio-2023.09.1-494.exe
1.3 本地部署GPT_Academic
1.3.1 GPT_AC简介与优缺点
- 优点:可以本地部署、客制化API、精美的web界面、免费的强大插件、接入各大模型
- 缺点:部署版本要求较高、无法提供进阶文档分析
GPT_Academic: ChatGPT/GLM提供实用化交互界面,特别优化论文阅读/润色/写作体验,模块化设计,支持自定义快捷按钮&函数插件,支持Python和C++等项目剖析&自译解功能,PDF/LaTex论文翻译&总结功能,支持并行问询多种LLM模型,支持chatglm2等本地模型。兼容文心一言, moss, llama2, rwkv, claude2, 通义千问, 书生, 讯飞星火等。
1.3.2 本地部署过程
1.3.2.2 配置API_KEY
在config.py
中,配置API KEY等设置,点击查看特殊网络环境设置方法与Wiki页面。
程序会优先检查是否存在名为config_private.py
的私密配置文件,并用其中的配置覆盖config.py
的同名配置。开发者建议在config.py
旁边创建一个名为config_private.py
的新配置文件,并把config.py
中的配置转移(复制)到config_private.py
中(仅复制修改过的配置条目即可)。
支持通过环境变量
配置项目,环境变量的书写格式参考docker-compose.yml
文件或者我们的Wiki页面。配置读取优先级: 环境变量
> config_private.py
> config.py
。
1.3.2.3 安装依赖
选择I: 如熟悉python(python版本3.9以上,越新越好)
备注:使用官方pip源或者阿里pip源的临时换源方法:
python -m pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/
选择II: 使用Anaconda 步骤也是类似的 (https://www.bilibili.com/video/BV1rc411W7Dr)
conda create -n gptac_venv python=3.11 # 创建anaconda环境
conda activate gptac_venv # 激活anaconda环境
python -m pip install -r requirements.txt # 这个步骤和pip安装一样的步骤
1.3.2.4 创建一个Python虚拟环境
- windows CMD terminal
查看本机python版本(建议3.11版本)
python --version
下载最新3.11Python版本 https://www.python.org/ftp/python/3.11.0/python-3.11.0-amd64.exe
- 创建Python虚拟环境
python -m venv <name>
- 启动虚拟环境
python activate.bat
- 退出虚拟环境
deactivate
1.3.2.5 在环境中安装pip库
python -m pip install -r requirements.txt
如果延迟过高 尝试换源
python -m pip install --upgrade pip
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
1.3.2.7 运行
python main.py
WiKi页面:项目配置说明 · binary-husky/gpt_academic Wiki · GitHub
Copyright © 2024 UrbanPlayground WHU