日更成长营自学编程Python

自学Python爬虫:爬虫抓取网页

2023-01-17  本文已影响0人  小强聊成长

抓取您想要的网页,并将其保存至本地计算机。
对要编写的爬虫程序进行简单地分析,该程序可分为以下三个部分:拼接 url 地址、发送请求、将结果保存至本地。

下面直接上代码:

from urllib import request,parse
# 1.拼url地址
url = 'http://www.baidu.com/s?wd={}'
word = input('请输入搜索内容:')
params = parse.quote(word)
full_url = url.format(params)
# 2.发请求保存到本地
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/18.17763'}
req = request.Request(url=full_url,headers=headers)
res = request.urlopen(req)
html = res.read().decode('utf-8')
# 3.保存文件至当前目录
filename = word + '.html'
with open(filename,'w',encoding='utf-8') as f:
    f.write(html)

说在最后,爬取网页有风险,操作需要谨慎,如果爬了不该爬的,后果很严重。
都是成年人了,自己要明白,行为的后果需要自己承担。
________________END______________

上一篇 下一篇

猜你喜欢

热点阅读