在AWS上配置jupyterhub
序
长话短说。
如果单纯是个人目的,那么在远程配置一个jupyter notebook服务器是很简单的。但是比如在课堂中,在学生们不具备每个人都拥有自己的jupyter notebook的情况下,教师完全可以通过一台远程服务器为每一个学生配置一个“独立”的jupyter notebook,而所有这些jupyter notebook都被囊括在一个jupyterhub里头。这就是jupyterhub的用处。
关于jupyterhub的细节我们不予以讨论,有需要的可以参考
- 官方的2016年pydata视频:https://www.youtube.com/watch?v=gSVvxOchT8Y&t=2220s
- github上的tutorial:https://github.com/jupyterhub/jupyterhub-tutorial
个人的linux服务器并不常见,所以我们在亚马逊云的ubuntu实例上配置安装。除开网络环境的不同(比如受公司,校园局域网的限制之类),以下的配制方法的可移植性还是挺不错的(我认为。。。)
在AWS上配置ubuntu实例
-
注册完账号后,点击Survice → EC2。
图1
-
点击Launch Instance。
图2
-
选择下图的ubuntu系统。
图3 -
选择可以免费试用的配置后,进入下一步。
图4 -
在step3这个配置页面,基本什么都不用改直接进入下一步。
图5 -
接下来调整硬盘大小,如果没什么特殊需求默认8GB就可以了。
图6 -
接下来添加标签,暂时也可以直接跳过。
图7 -
设置端口的时候,开放22端口用于在命令行里通过SSH登录你的ubuntu实例;开放8000端口用于让有需要的人通过浏览器访问你的jupyterhub。
图8 -
就这样实例的配置基本完成。在这个页面最后一次检查下配置有没有问题,没有的话就点击Launch。(因为你把端口8000开放成任何人都可以访问所以被警告不安全,可以不用在意。)
图9
-
这是远程ubuntu的配置。为了让你能够从你的电脑访问这台Ubuntu,还需要设置秘密钥匙用于SSH连接。
- 选择生成新的钥匙对
- 填写钥匙对的名字
- 下载秘钥到你的电脑,最好将它放在~/.ssh这个专门放置ssh秘钥的文件夹里。下载下来后不能弄丢,如果弄丢了就再也找不回来了,AWS并不会帮你保存这个秘钥否则AWS就可以随意进出你的实例。这在安全性上是不会被公众允许的。
- 接下来点击Launch Instances就可以启动你的Ubuntu咯!
图10
-
接下来就会进入到你拥有的实例的管理页面。Status Checks的状态变成2/2为止需要等待几分钟。变成2/2后你的实例就可以登陆了。提前说明,点击Actions→Instance State就可以自由的开始,暂停,结束你的实例。
图11
你需要记住你的Public DNS,SSH登录Ubuntu和网页登录Jupyterhub的时候都会用到。
-
从终端登录你的ubuntu实例。默认的用户名是ubuntu。
$ chmod 600 ~/.ssh/AWS_SSH_key_pair.pem
$ ssh -i ~/.ssh/AWS_SSH_key_pair.pem ubuntu@[Public DNS]
ubuntu上配置jupyterhub
- 登陆上ubuntu之后,首先要做的就是更新。
$ sudo apt-get update
$ sudo apt-get upgrade
然后安装一下乱七八糟的东西(没太搞明白这些东西是否必须)
$ sudo apt-get -y install git gcc g++ make openssl libssl-dev libbz2-dev libreadline-dev libsqlite3-dev python-dev libmysqlclient-dev
- 接下来就要配置python环境了。如果你是以当前用户ubuntu来进行安装的话,之后开启的jupyterhub可能只有ubuntu这个用户能够使用而没法达到多用户的目的。所以我们先进入root在进行一系列操作。
$ sudo su -
- 安装pyenv。
$ cd /opt
$ git clone https://github.com/yyuu/pyenv.git pyenv
$ sudo apt-get install emacs
用emacs打开.~/.bashrc
后,添加以下配置。
emacs ~/.bashrc
export PYENV_ROOT="/opt/pyenv"
if [ -d "${PYENV_ROOT}" ]; then
export PATH=${PYENV_ROOT}/bin:$PATH
eval "$(pyenv init -)"
fi
然后让bash shell读取新添加的配置。
source ~/.bashrc
- 接下来通过
pyenv
来安装和配置ananconda。(当前版本ananconda3-5.1.0)
$ pyenv install ananconda3-5.1.0
$ pyenv global ananconda3-5.1.0
完成了之后你可以通过以下命令来检查一下你的python版本,不出意外的话应该是Anaconda所持有的python。
$ python --version
- 利用conda安装jupyterhubhe它所使用的notebook。
$ conda install -c conda-forge jupyterhub
$ conda install notebook
- 生成jupyterhub的配置文件。(待会再配置这个文件)
$ mkdir /etc/jupyterhub
$ cd /etc/jupyterhub
$ jupyterhub --generate-config
- jupyterhub的启动配置。
$ echo jupyterhub -f /etc/jupyterhub/jupyterhub_config.py > jupyterhub.sh
$ echo su -l root /etc/jupyterhub/jupyterhub.sh \& >> /etc/rc.local
- 设置使用这个jupyterhub的用户。登录jupyterhub所需要的就是用户名和密码。
- 首先是ubuntu。这个用户名已经存在,并且在刚刚进入root时候也设置的密码,所以这样就行了
- 接下来是一个普通用户testuser
$ adduser testuser
然后系统会让你设置包括密码和身份的一些乱七八糟的东西。
- 现在用户和密码都齐全了,要做的就是让告诉jupyterhub哪些是可以登录jupyterhub的普通用户,哪些是登录jupyterhub的管理员级别的用户。
打开刚刚生成的jupyterhub的配置文件。
& emacs /etc/jupyterhub/jupyterhub_config.py
- 普通用户
c.Authenticator.whitelist = {'testuser'}
- 管理员级别
c.JupyterHub.admin_users = { 'ubuntu' }
- 然后设置默认登录jupyterhub后的目录。
c.Spawner.notebook_dir = '~/notebook'
- 接下来只要打开jupyterhub就可以了。
$ jupyterhub
不过我推荐用nohup和&的组合让程序在后台运行比较好,这样即使你断开了ubuntu的SSH连接,只要你的实例还在运行,你就随时可以通过浏览器登录你的jupyterhub。
$ nohup jupyterhub > jupyterhub.log &
- 在浏览器输入以下地址,通过浏览器登录你的jupyterhub。
http://[Public DNS]:8000
- 输入用户名testuser和它的用户密码便可。
以上的方法参照结合了以下两篇博文:
注意:校园网可能会不让你访问这种看似不安全的网页,所以你在校园或者公司里可能会无法登陆http://[Public DNS]:8000