Python&爬虫
前几天看了一位朋友写的关于用爬虫抓取数据的文章,越发觉得在互联网时代使用工具的重要性,刚好自己也有一些数据要搜集,所以就参照他的文章来个践行版。文章详见【人人都该懂的技术系列】用爬虫简化你的工作。
首先,介绍一下Python。资料来源廖雪峰的官网。
Python是用来编写应用程序的高级编程语言。当你用一种语言开始作真正的软件开发时,你除了编写代码外,还需要很多基本的已经写好的现成的东西,来帮助你加快开发进度。Python就为我们提供了非常完善的基础代码库,覆盖了网络、文件、GUI、数据库、文本等大量内容,被形象地称作“内置电池(batteries included)”。用Python开发,许多功能不必从零编写,直接使用现成的即可。
除了内置的库外,Python还有大量的第三方库,也就是别人开发的,供你直接使用的东西。当然,如果你开发的代码通过很好的封装,也可以作为第三方库给别人使用。
许多大型网站就是用Python开发的,例如YouTube、Instagram,还有国内的豆瓣。很多大公司,包括Google、Yahoo等,甚至NASA(美国航空航天局)都大量地使用Python。
龟叔给Python的定位是“优雅”、“明确”、“简单”,所以Python程序看上去总是简单易懂,初学者学Python,不但入门容易,而且将来深入下去,可以编写那些非常非常复杂的程序。
接下来,安装Python。
目前,Python有两个版本,一个是2.x版,一个是3.x版,这两个版本是不兼容的,因为现在Python正在朝着3.x版本进化,在进化过程中,大量的针对2.x版本的代码要修改后才能运行,所以,目前有许多第三方库还暂时无法在3.x上使用。
为了保证你的程序能用到大量的第三方库,我们的教程仍以2.x版本为基础,确切地说,是2.7版本。请确保你的电脑上安装的Python版本是2.7.x,这样,你才能无痛学习这个教程。
根据电脑操作系统选择对应版本的Python,笔者电脑为Windows操作系统,就以Windows为例进行讲解。
从Python的官方网站python.org下载最新的2.7版本,网速慢的同学请移步国内镜像。然后,运行下载的MSI安装包,安装路径可自己选择,详见下图。由于系统默认是安装在C盘,所以当你选择其他盘安装时,会提示你是否覆盖之前的文件夹,如果是,点击“Yes”即可。
笔者习惯安装在D盘在选择安装组件的一步时,勾上所有的组件,在这一步,直接选中第一个组件,后面的子组件都一起被选中了。
改图来自廖雪峰官网然后就一路点击“Next”,安装完毕。接下来检测是否安装成功,点击电脑左下角win/开始图标,菜单栏会显示你最近添加的程序,点击下图第四个图标【Python(command line)】,即Python命令行,看是否安装成功。
也可以打开命令提示符窗口,敲入python,进入Python交互界面。
你看到提示符>>>就表示我们已经在Python交互式环境中了,可以输入任何Python代码,回车后会立刻得到执行结果。现在,输入exit()并回车,就可以退出Python交互式环境(直接关掉命令行窗口也可以!)。注:不同操作系统版本略有差异,下图仅供参考。
笔者安装成功界面 廖雪峰官网—安装成功界面python程序运用
1、使用文本编辑器
在Python的交互式命令行写程序,好处是一下就能得到结果,坏处是没法保存,下次还想运行的时候,得再敲一遍。
因此可以用文本编辑器把代码保存起来,廖雪峰推荐了两款文本编辑器,详见《使用文本编辑器》。
在这里,对从未写过代码的小白来说,有个坑,要特别注意下。
当使用文本编辑器把写的代码保存为“.py”格式后,是用于在“命令提示符”中打开运行的,笔者因为没有理解到“命令提示符”与python的区别,所以在这个坑里转了好久~~o(>_<)o ~~相信,聪明如你,一定不会犯这么低级的错误。
命令提示符(cmd)是在操作系统中,提示进行命令输入的一种工作提示符。打开方式:
win10系统:右键点击“开始”—运行—输入cmd,单击确定,命令提示符窗口打开。
win7系统:单击开始—所有程序—附件—命令提示符。更多操作方法,详见如何打开Win7命令提示符cmd.exe窗口。
2、输入和输出
1)输出。
用print加上字符串,就可以向屏幕上输出指定的文字。比如输出'hello, world',用代码实现如下:
>>> print'hello, world'
print语句也可以跟上多个字符串,用逗号“,”隔开,就可以连成一串输出:
>>> print'The quick brown fox','jumps over','the lazy dog'The quick brown fox jumps over the lazy dog
print会依次打印每个字符串,遇到逗号“,”会输出一个空格,因此,输出的字符串是这样拼起来的:
2)输入。
更多内容详见输入和输出。总之,当你看到输入的代码非常直接变成你想要的结果还是一件特别有意思的事。