Python C7-5——网页下载翻墙效果

2017-07-14 本文已影响0人 sinkpink

感觉今天的代码可以实现爬虫的功能，解析一个网址并下载网址。

完整代码如上；

1、导入urllib、re模块；从HTMLParser模块导入类；

2、利用urlretrieve（）提取网址的信息，并存储在文件中；

3、以只读方式打开文件，读取文件所有行内容打印相关信息。

第一面的打印内容，包括了网址，gif图地址，时间信息；

标准时间前一天的时间信息和对应的网址信息；

.还有很多这样的信息。

一直到最后的网址信息。还有11好的信息，不知道是什么操作机制。

查阅相关资料后：

1、urllib模块是接受url请求的模块；也就是可以实现和互联网通信的功能；urlretrieve方法将url定位到的html文件下载到指定文件中；如果不指定filename，则会存为临时文件；

2、re模块是为高级字符串处理提供正则表达式的工具；re.sub()用于替换字符串中的匹配项，代码中是把文件中读取的内容匹配项（正则表达式）替换为''表示的空字符；

3、HTMLParser模块是Python自带的对html文件进行解析的模块，可以分析其中的标签、数据等；

4、join函数是将字符串、列表、元组中的元素按照指定分隔符连接成新的字符串；代码中的是把读取的文件内容用""表示的空字符连接起来。

被解析的网址是张这样的。