自学Python爬虫:爬虫抓取网页

2023-01-17 本文已影响0人小强聊成长

抓取您想要的网页，并将其保存至本地计算机。
对要编写的爬虫程序进行简单地分析，该程序可分为以下三个部分：拼接 url 地址、发送请求、将结果保存至本地。

下面直接上代码：

from urllib import request,parse
# 1.拼url地址
url = 'http://www.baidu.com/s?wd={}'
word = input('请输入搜索内容:')
params = parse.quote(word)
full_url = url.format(params)
# 2.发请求保存到本地
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/18.17763'}
req = request.Request(url=full_url,headers=headers)
res = request.urlopen(req)
html = res.read().decode('utf-8')
# 3.保存文件至当前目录
filename = word + '.html'
with open(filename,'w',encoding='utf-8') as f:
    f.write(html)

说在最后，爬取网页有风险，操作需要谨慎，如果爬了不该爬的，后果很严重。
都是成年人了，自己要明白，行为的后果需要自己承担。
________________END______________

自学Python爬虫:爬虫抓取网页

猜你喜欢

热点阅读