第 2 章 环境设置
2.1 概述
我的教程,可以分成两大类。
第一类是不需要安装环境的。这一部分的代码,我都帮你做成了可直接在线运行的形式。你只需要按照文章中提升的链接打开就好。
第二类,因为种种原因,没有可以直接在线运行的版本。这就需要你安装环境,并且下载相关的代码与数据。
这种方式,需要你安装 Python 运行环境。最简便办法是安装 Anaconda 套装。
请到 这个网址 下载 Anaconda 的最新版本。
请选择左侧的 Python 3.6 版本下载安装。
如果你需要具体的步骤指导,或者想知道Windows平台如何安装并运行Anaconda命令,请参考我为你准备的 视频教程 。
安装 Anaconda 完毕后,请你到指定的网址下载教程配套的压缩包。一般这样的链接都是 github 网址。
下载后解压,你会在生成的目录里面看到若干文件。
以《如何用Python和机器学习训练中文文本情感分类模型?》一文为例,压缩包打开是这样的:
文中我们会把这个目录称为“演示目录”。
请一定注意记好它的位置哦。
打开终端,用cd命令进入演示目录。如果你不了解安装包或者终端的具体使用方法,也没有关系,可以参考视频教程(2.2) 。
2.2 如何安装Python运行环境Anaconda?(视频教程)
本视频教程针对Windows 7平台,集成3.6版本Python的Anaconda录制。
根据我多次线下编程工作坊获得的反馈经验,发现Python初学者居然在环境安装步骤,就很可能遭受挫折。
如果没有有效的指引,初学者往往会把大量的时间花在低水平试错上。
这就是为什么人们经常揶揄“从入门到放弃”。
其实,只需要老师在关键处多讲一两句话,大部分人就可以根据图文教程顺利走下来,获得成功经验、乐趣和自信。
这一两句话的差别看似不大,可受限于图文教程的形式(文字是一种压缩后的信息密码),往往会被讲授者忽略。
从根本上避免这个问题,就需要讲授者和学习者间更宽的沟通信息渠道。
因此,我把《玉树芝兰》数据科学教程系列的基础部分:Python运行环境Anaconda的下载、安装与Jupyter Notebook启动运行做了一段高清视频。
Anaconda是跨平台软件。尤其是Jupyter Notebook上的Python编程体验具有很强的一致性。
然而,不同平台的安装与运行,还是有一些细节上的差异的。
为了照顾大多数读者的使用习惯和偏好,我没有完全照搬图文教程里面macOS系统上的安装和运行方式,而是采用了Windows 7平台从头开始演示。
鉴于目前Python两个版本的发展趋势已经更加明朗,我这里也把Python的版本选择从Python 2变成了Python 3。
视频教程的地址在这里。
欢迎你收看视频教程。如果你还没有亲自动手实践过Anaconda的安装和运行,也强烈建议你跟着教程,从头到尾走一遍。
这很可能会给你开启一扇走向Python编程和数据科学的大门。
2.3 如何用 pipenv 克隆 Python 教程代码运行环境?
咱们的 Python 教程代码已经可以免安装在线运行了。但如果你希望在本地克隆运行环境,请参考本文的步骤说明。
2.3.1 疑惑
这些日子,我用课余时间,忙着把自己知识星球的分享文章转移到语雀平台,以便于订阅用户阅读和获得即时推送。目前该分享空间已经初具规模。
回过头来一看,专栏和微信公众号后台,积攒了不少用户的提问。
例如这位用户问:
为什么我在binder上新建的文件再次打开后就丢失了?
问题来自于我的《如何用iPad运行Python代码?》(8.4)一文。
咱们用 mybinder ,是为了给读者们提供一个一致性的代码运行环境。
你可以免安装,运行样例代码。可以修改代码重新运行,甚至可以上传数据文件,做自己的分析。
我需要补充说明一个重要事项—— mybinder 为咱们提供的 Python 运行环境资源,是共享的,并非永久独占空间。
每个同学,打开相同的一个链接后,mybinder 都开启一个独立的环境,大家互不干扰。
但是,Python 环境的运行,是需要后台的资源支持的。
你每打开一个 mybinder 的链接,后台都要给你提供对应的 CPU、内存、硬盘等一系列资源。
如果这些资源被大量用户长期占用,平台无法承受。新的用户也就无法再加入使用了。
mybinder 平台和用户的约定,是如果你超过十分钟“不活跃”(inactivity),系统就会关闭你的会话(session),以回收资源,服务更多有需要的用户。
你运行结束关闭浏览器,超过10分钟,再用该链接重新访问,所做的改动自然就都不见了。
也正因如此,我才在教程的末尾,为你提供了源代码的 github repo 地址。
你可以选择在自己的机器上,克隆教程 Python 运行环境。
哪些情况下,你会需要在本地克隆 Python 运行环境呢?
如果你的数据比较大,或者安全性要求较高,上传到云端不方便;
如果你怕因为网络稳定性的原因,导致代码运行中途网络出现问题,前功尽弃;
如果你运行的深度学习模型,需要 GPU 或者大容量内存的支持……
遇到上述情况,不要紧。
下面我给你介绍如何使用 pipenv ,方便地克隆教程指定的 Python 运行环境,在本地运行 Jupyter Notebook。
2.3.2 流程
咱们以《如何用 Python 和 API 收集与分析网络数据?》(9.3)这篇文章为例。
文章结尾部分,我给你提供了对应的 github repo 的代码地址(http://t.cn/R3usEti)。
你也可以直接通过这个链接(http://t.cn/R3usDi9),直接下载包含源代码与运行环境的压缩包。
解压之后,你会看到目录中包含以下配置相关文件:
- environment.yml
- postBuild
- Pipfile
其中 environment.yml
和 postBuild
是为 mybinder 使用的。本地克隆运行环境的时候,你可以忽略它们。
请注意其中的 Pipenv 文件。
我们打开 Pipenv 文件,看看内容:
[[source]]
url = "https://pypi.org/simple"
verify_ssl = true
name = "pypi"
[packages]
ipykernel = "*"
plotnine = "*"
requests = "*"
[dev-packages]
[requires]
python_version = "3.6"
其中 requires 区域,说明了本教程使用的环境,是 Python 3.6 版本。
packages 区域,告诉 pipenv ,需要给我们准备的软件包都有哪些。
下面我们看看如何用 pipenv 克隆运行环境。
你需要检查是否已经安装了 Anaconda 3。
如果你还没有安装,请参考我之前为你制作的这篇教程 《如何安装Python运行环境Anaconda?(视频教程)》(2.2)把它安装好,并且学习如何在终端进入解压后的压缩包。
我把后续的详细操作步骤,录了一段视频,你可以直接点开这个链接(http://t.cn/R1cWIWr),播放该视频。
如果你之前有安装经验,也可以根据下面的文字说明操作。
之后,执行以下语句:
这会为我们安装 pipenv 工具,以便处理 Pipfile。
第二步,执行:
这个命令,可以让 Python 根据我们目前的 Pipenv 配置,自动构建环境,并且从网上把所有需要用到的依赖软件包,都弄下来,安装好。
第三步,执行:
这条命令,帮你给 Jupyter Notebook ,安装一个核心组块,把你刚才安装的这些软件包信息,都放在这个组块里。
为了便于在系列教程中重复使用代码,我给这个组块命名为 wangshuyi。
对于一般的教程源代码,上述步骤就可以了。但是因为《如何用 Python 和 API 收集与分析网络数据?》(9.3)这篇文章,涉及到绘图,而且里面出现中文显示。
我们需要进行一些处理,以便让程序顺利运行,保证中文字符正常显示。
方法是执行下面这条语句:
最后一步,开启 Jupyter Notebook :
这时候,你就可以看到熟悉的 Jupyter Notebook 界面了。
注意这个示例代码中,需要你输入自己的 AppCode,所以你需要把其中的“Your AppCode here”字样,替换为你自己的 AppCode值。否则下面的运行会报错。
替换之后,点击菜单栏中的“Cell”,选择“Run All”,看能否正常运行全部代码,并且显示分析结果图形。
如果一切正常,意味着你的 Python 运行环境克隆工作顺利完成。
祝贺你!
2.3.3 背景
有读者留言询问,为什么用了两套不同的虚拟软件包管理工具。
因为很遗憾,本文写作时, mybinder 还不支持 Pipfile 配置文件。
其实,我们这里用到的 Pipfile ,不是 pipenv 这个软件专用的配置文件格式。
它是未来 Python 软件包管理工具 pip 的官方指定配置文件格式。
在未来,如果你用 pip 安装软件,就要跟 Pipfile 打交道。
不过,Python 开源社区的很多举动,进展都很缓慢。
例如 Python 3,已经出来这么久了, Python 2 还没有退休呢。
pip 这种底层的包管理方式,哪是一两天就能发生根本改变的?
pipenv 出现,是因为人们不想等了。
现在,就是现在,我们要用最符合人性的 Python 软件包管理工具。
使用 pipenv,好处有很多。
仅举一例,用 pipenv ,你可以用一条命令,查看当前项目软件包之间的依赖关系。
感觉怎么样?
如果你对 pipenv 感兴趣,想了解它的特性、演进过程,请点击这个链接(http://t.cn/R1cYQSU),查看 PyCon 2018 大会上 Kenneth Reitz 的讲解。
Kenneth Reitz 是谁?
如果你读过我的《如何用 Python 和 API 收集与分析网络数据?》(9.3)一文,你已经用过他的作品了。
对,“给人用的” (for humans) HTTP 工具,requests,就是他写的。