python爬虫第一步：获取页面内容

2018-06-03 本文已影响0人 ggr

爬虫最基础的一步就是获取某个链接的html内容，然后再做其他分析处理
下面演示如何获取某个url的内容：效果其实和我们在浏览器右键查看源的效果一致,我们可以吧内容保存到某个文件中，代码如下：

import urllib.request
import codecs
# 使用codecs实现文件自动编码
url = "http://www.douban.com"
webPage = urllib.request.urlopen(url)
data = webPage.read()
data = data.decode('utf-8')
print(data)
f = codecs.open('C:/Users/GuiRunning/Desktop/test/test.html','w','utf-8')
f.write(data)
f.close()

最后得到的文件如下图：

image.png

python爬虫第一步：获取页面内容

猜你喜欢

热点阅读