有些文章不一定是为了上首页投稿简书面面观每周500字

爬虫基础系列urllib（1）

2019-05-03 本文已影响11人猛犸象和剑齿虎

u=2998242485,1841996514&fm=27&gp=0.jpg

懵懵懂懂入了Python的坑

其实我想学的是java，相比于python，Java可能更具有针对性，因为我的初衷是写一个数据处理软件，目的只是想从枯燥、繁重的数据工作中解放出来，从Excel函数到透视表，再到VBA，一路走来，突然发现艰辛可能只是个人体验，通过技术改变工作现状，尤其是VBA的编程技术，让重复性的报表分析工作突然简化了一大半，从而对编程产生兴趣，萌生系统学习一门编程技术的想法，当然当时的选择是Java。
然而现实的打击往往来自于开始阶段，还没有入门就放弃在配置环境变量上的Java，对于非计算机专业的个人选择了Python，Python语法简洁，而且是胶水语言（会的语言少，没怎么体会到），总之很强大就是了。

技术贴难写的原因

技术有时候挺像玄幻小说中写的修真，一个阶段一个阶段的进阶，在一个较低阶段的感觉一些高阶段的技能，要么无感，要么觉得特别的难。
真的很难写出创新性的东西，在夯实基础的阶段，首要目标是代码跑起来。另外技术贴要写的通俗易懂也是很难的事情，毕竟还是新手阶段，并且不以此为生。
所以只作为学习笔记来写，当然能帮助到部分道友也是件开心的事。

爬虫能干什么

各类教程和视频网站讲的都很高大上，作为个人体验，可能境界不够，只说说自己的体会：

爬取网站数据，能干什么只有自己体会了，比如分析今天温度比去年略低，种的芹菜估计要晚几天才能发芽。
爬取一些特色网站功能，比如翻译网站，翻译一些不懂的单词。
爬取一些电影大片，满足视觉体验。

第一个爬虫
urllib包是python内置模块，是每一个接触爬虫的道友，第一个要了解熟悉的包，爬虫从大的地方来说涉及两个方面的内容：

数据挖掘
数据清洗
首先说说数据挖据，爬虫的目标就是网站，从网站中挖掘出数据的过程首先就是发送请求（request），然后获取网站的响应（response），然后是获取数据供第二部分数据清洗来做。
数据清洗，就是从获取的响应网页（大都是HTML网页代码形式）中，提取出想要的信息，以各种便于分析的结构存储到文件或者各类形式的数据库中。
简单来说和人上网其实是一样的，登录网站获取信息。

from urllib import request #从urllib包导入request模块（或者称为方法）
url=r"http://www.baidu.com/" #百度网站
reponse=request.urlopen(url).read()#发送请求.读取响应信息
print(type(reponse))#在Python中用print函数打印响应信息

返回的是二进制形式类型，去掉type函数返回的是二进制的html页面代码
................<class 'bytes'>#
爬虫基础系列urllib（2）

上一篇下一篇

猜你喜欢

热点阅读