爬虫起步,何其艰难...(编程环境搭建的心酸之路)
纠结很久,知道了python。装了版本2.7.后来了解了sublime,强大的编译器,但还是无从下手。整一周时间消耗过去了...可是我要编爬虫啊,再难也得继续。
3月28 了解scrapy
知乎到https://zhuanlan.zhihu.com/p/24699781。研究官网文档https://doc.scrapy.org/en/latest/intro/tutorial.html。
定义想要的数据-->编写提取数据的spider(定义的数据需要Xpath表达式或者正则表达式)-->运行
一些名词:parse cookie session。虽然不大懂,先搭起环境来再说。
安装scrapy 首先要有python环境,然后安装pip(防止版本出错,需要下载https://pip.pypa.io/en/latest/installing/#upgrading-pip
保存成.py文件 运行 这里我失败了!尝试手动安装 失败了.... )
3月29 继续尝试安装pip 继昨天显示没有setuptools包工具,发现一篇博客http://blog.csdn.net/xsj_blog/article/details/52037609
(1)easy_install和pip都是用来下载安装Python一个公共资源库PyPI 的相关资源包的,pip是easy_install的改进版,提供更好的提示信息,删除package等功能。老版本的python中只有easy_install, 没有pip。
(2)easy_install 打包和发布 Python 包
(3)pip 是包管理
所以正在装easy install工具。成功!!!继续装pip。成功!!!
接下来以为可以顺利安装scrapy了,结果pip install scrapy还是出错。错误代码:Collecting scrapy
无语....
不放弃,访问了scrapy文档获知最好用anaconda安装scrapy,无奈校园网访问国外服务器下载速度巨慢,vpn之。半小时后终于安装上了。可是问题又来了,登陆用户文件夹在anaconda 2版本中不支持中文文件夹。随后又切换管理员账户更改用户文件夹为英文、修改注册表,注销重新登陆。安装成功!!! 小白依然在路上飞奔......(后悔本科学计算机多好 ) 接下来执行conda install -c conda-forge scrapy 期待顺利。
如我所料,怎么可能顺利!!!!!国外镜像装完之后,据说不仅更新速度令人发指,包安装也到处都是问题...正确姿势应该是清华开源网站https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/下载镜像,并安装包插件。https://zhuanlan.zhihu.com/p/25198543话不多说,开始试水(天啊,国内教育网骨干节点上的下载速度也慢的要死...忍)
3.30 不放弃的第三天,成功将anaconda2的镜像从官网更换成清华开源的版本,这里因为访问官网时自动获取的是anaconda 2,而不是3,所以清华开源里我选择了Anaconda2-4.3.1-Windows-x86_64.exe。接受了前面中文登陆用户文件夹的教训,安装过程顺利通关。
接下来就是打开Anaconda Prompt运行conda install -c conda-forge scrapy指令还是出错。依旧报错:CondaHTTPError: HTTP None None for url <https://conda.anaconda.org/conda-forge/win-64/repodata.json>
Elapsed: None
An HTTP error occurred when trying to retrieve this URL.
HTTP errors are often intermittent, and a simple retry will get you on your way.
ConnectionError(ReadTimeoutError("HTTPSConnectionPool(host='conda.anaconda.org',port=443): Read timed out.",),)
提示url,看来是资源访问路径问题,既然镜像是国内的那一定也应该从国内获取和升级各种包。不出所料https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/
包管理也应切换成国内源。需要运行代码是:
conda config --add channelshttps://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --set show_channel_urls yes
运行conda install numpy测试可行。
于是激动又小心翼翼地敲上conda install -c conda-forge scrapy,还是提示url。这里并没有查看帮助,试了一下直接敲conda install scrapy(因为没仔细研究—c conda forge 含义,并不是很理解)。但成功获取package,无比激动地看着安装进程在跑。
没错,此时的我已经热泪盈眶!!!真的太不容易了。
来不及喜悦,小白继续跑在路上。