Python入门学习记录

Python  C7-5——网页下载翻墙效果

2017-07-14  本文已影响0人  sinkpink

        感觉今天的代码可以实现爬虫的功能,解析一个网址并下载网址。

    完整代码如上;

1、导入urllib、re模块;从HTMLParser模块导入类;

2、利用urlretrieve()提取网址的信息,并存储在文件中;

3、以只读方式打开文件,读取文件所有行内容打印相关信息。

第一面的打印内容,包括了网址,gif图地址,时间信息;

标准时间前一天的时间信息和对应的网址信息;

.

.

.还有很多这样的信息。

一直到最后的网址信息。还有11好的信息,不知道是什么操作机制。

查阅相关资料后:

1、urllib模块是接受url请求的模块;也就是可以实现和互联网通信的功能;urlretrieve方法将url定位到的html文件下载到指定文件中;如果不指定filename,则会存为临时文件;

2、re模块是为高级字符串处理提供正则表达式的工具;re.sub()用于替换字符串中的匹配项,代码中是把文件中读取的内容匹配项(正则表达式)替换为''表示的空字符;

3、HTMLParser模块是Python自带的对html文件进行解析的模块,可以分析其中的标签、数据等;

4、join函数是将字符串、列表、元组中的元素按照指定分隔符连接成新的字符串;代码中的是把读取的文件内容用""表示的空字符连接起来。

被解析的网址是张这样的。

上一篇下一篇

猜你喜欢

热点阅读