有些文章不一定是为了上首页投稿简书面面观每周500字

爬虫基础系列urllib(1)

2019-05-03  本文已影响11人  猛犸象和剑齿虎
u=2998242485,1841996514&fm=27&gp=0.jpg

懵懵懂懂入了Python的坑

技术贴难写的原因

爬虫能干什么

  1. 爬取网站数据,能干什么只有自己体会了,比如分析今天温度比去年略低,种的芹菜估计要晚几天才能发芽。
  2. 爬取一些特色网站功能,比如翻译网站,翻译一些不懂的单词。
  3. 爬取一些电影大片,满足视觉体验。
  1. 数据挖掘
  2. 数据清洗
    首先说说数据挖据,爬虫的目标就是网站,从网站中挖掘出数据的过程首先就是发送请求(request),然后获取网站的响应(response),然后是获取数据供第二部分数据清洗来做。
    数据清洗,就是从获取的响应网页(大都是HTML网页代码形式)中,提取出想要的信息,以各种便于分析的结构存储到文件或者各类形式的数据库中。
    简单来说和人上网其实是一样的,登录网站获取信息。
from urllib import request #从urllib包导入request模块(或者称为方法)
url=r"http://www.baidu.com/" #百度网站
reponse=request.urlopen(url).read()#发送请求.读取响应信息
print(type(reponse))#在Python中用print函数打印响应信息

返回的是二进制形式类型,去掉type函数返回的是二进制的html页面代码
................<class 'bytes'>#
爬虫基础系列urllib(2)

上一篇 下一篇

猜你喜欢

热点阅读