机器学习基础:搭建在线Anaconda环境
序
机器学习、人工智能已经火了有一段时间,正好近期有建模预测需求,之前还没怎么了解学习,硬着头皮自我充实一下。千里之行,先从Anaconda环境开始吧。
Anaconda介绍
Anaconda是用于科学计算的Python发行版,它集成了很多关于Python科学计算的第三方库,同时提供了包管理和环境管理的功能,可方便的解决多版本Python并存、切换以及第三方包安装问题。支持运行在Linux、Windows和macOS下。Anaconda利用命令/工具conda
来进行Package和environment管理。
conda VS anaconda
conda可以理解为一个工具,也是一个可执行命令,其核心功能是包管理与环境管理。包管理与pip的使用类似,环境管理则允许用户方便地安装不同版本的python并可以快速切换。Anaconda则是一个打包的集合,里面预装好了conda、某个版本的python、众多packages、科学计算工具等等,所以也称为Python的一种发行版。其实还有Miniconda,顾名思义,它只包含最基本的内容——python与conda,以及相关的必须依赖项,对于空间要求严格的用户,Miniconda是一种选择。
Anaconda安装
我主要在CentOS服务器上安装Anaconda,参考官网帮助文档。下载安装脚本:https://www.continuum.io/downloads#linux ,选择要安装的Python版本和系统架构:
# Python 3.6
$ wget https://repo.continuum.io/archive/Anaconda3-4.3.1-Linux-x86_64.sh #64位系统
$ wget https://repo.continuum.io/archive/Anaconda3-4.3.1-Linux-x86.sh #32位系统
# Python 2.7
$ wget https://repo.continuum.io/archive/Anaconda2-4.3.1-Linux-x86_64.sh #64位系统
$ wget https://repo.continuum.io/archive/Anaconda2-4.3.1-Linux-x86.sh #32位系统
(这里我选择的是Python3.6 version 64BIT,关于Python的版本2.7 or 3.6,后面都可以在Anaconda里设置版本环境)
运行安装向导:
$ bash Anaconda3-4.3.1-Linux-x86_64.sh
按照向导,接受协议-->设置安装路径(默认安装用户Home目录)-->然后把安装路径添加到环境变量。
遇到的问题
1.在安装向导设置安装路径后,ENTER,提示如下错误信息:
tar (child): bzip2: Cannot exec: No such file or directory
tar (child): Error is not recoverable: exiting now
tar: Child returned status 2
tar: Error is not recoverable: exiting now
Google之,原来是没有安装bzip2,参考:https://stackoverflow.com/questions/26958741/extract-tar-the-tar-bz2-file-error
安装即可:
yum -y install bzip2
2.在安装向导最后一步,是否添加到环境变量,默认是no,我手贱直接ENTER了。
对于Mac、Linux系统,Anaconda安装好之后,实际上就是在主目录下多了个文件夹(~/anaconda),Windows会写入注册表。安装程序会把bin目录加入PATH。现在只能自己完成了:
# 将anaconda的bin目录加入PATH,根据版本不同
echo 'export PATH="~/anaconda3/bin:$PATH"' >> ~/.bashrc
# 更新bashrc立即生效
source ~/.bashrc
配置好PATH后,可以通过which conda
或conda --version
命令检查是否正确。
Jupyter Notebook
当然,安装Anaconda的科学计算python平台,是为了使用Jupyter Notebook来学习Python的一些科学计算和机器学习库。Jupyter Notebook是IPython的一个Web接口,可以展现富文本,是的整个工作可以以笔记的形式展现、存储,适合做数据分析,交互性变成和学习。
但是,当我在服务器上运行Jupyter Notebook时候,无法使用。因为当前配置下只能从本地(也就是那台CentOS服务器上)访问,但是服务器只装了centos的Minimal,没有桌面环境,更不用说浏览器了。这当然不满足我目前的需求,需要配置服务器上的Jupyter允许远程访问。
生成配置文件:
jupyter notebook --generate-config
生成的配置文件位于~/.jupyter/jupyter_notebook_config.py。
生成自签名SSL证书:
cd ~/.jupyter
openssl req -x509 -nodes -days 365 -newkey rsa:1024 -keyout notebook_cert.key -out notebook_cert.pem
生成一个hash密码:
python -c "import IPython;print(IPython.lib.passwd())"
Enter password:
Verify password:
sha1::7211a627f0ba:1e515d95f664181dc5f43571b8973476126e7371
复制生成的密码,编辑jupyter的配置文件:
vi ~/.jupyter/jupyter_notebook_config.py
在打开的配置文件中,配置相应的参数:
c.NotebookApp.certfile = u'/home/xxxx/.jupyter/notebook_cert.pem'
c.NotebookApp.keyfile = u'/home/xxxx/.jupyter/notebook_cert.key'
c.NotebookApp.password = u'sha1::7211a627f0ba:1e515d95f664181dc5f43571b8973476126e7371'
c.NotebookApp.ip = '*'
c.NotebookApp.port = 8081
c.NotebookApp.open_browser = False
再次启动Notebook:
jupyter notebook
在本机使用浏览器访问:http://192.168.111.186:8081 ,即可打开Jupyter Notebook的页面,输入刚才设置的密码,即可登录了。
至此,就实现了远程服务器Jupyter Notebook。接下来就可以安装机器学习所需要的一些库开始折腾了,包括:Numpy、Pandas、Matplotlib、Scikit-learn等。
参考
http://blog.topspeedsnail.com/archives/9607
http://www.jianshu.com/p/2f3be7781451
http://blog.topspeedsnail.com/archives/7321
http://jupyter-notebook.readthedocs.io/en/latest/index.html