第一天爬虫

2018-11-15 本文已影响0人青_a2c4

大数据时代:如何产生？

1.打的公司打的企业：通过用户产生的数据

2.大的数据平台：通过收集或者和其他企业或者公司合作

3.国家政府/大的机构：通过省县乡或者其他方式统计汇总产生的

4.数据咨询公司：通过收集或者和其他企业或者公司合作，会根据数据分析对比形成报表。给你数据参考

5.最终假如以及方式都不能满足顶的时候，我们就组需要一个爬虫工程师，去专门坐数据的提取

1什么是爬虫？

就是一段自动获取互联网的数据

2.爬虫的用途？

搜索引擎，比价工具（慧慧购物助手）大的咨询网站（jobbole，今日头条。。。）

网站的三大的特性：

1，每一个资源都一个url（统一源定位符），是唯一的

2，网页都是使用HTML（超文本）文本展示数据的

3，通过HTML/HTTPS（超文本传输协议），获取和传递HTML

3如何实现爬虫？

（1）.找到目录url

（2）.根据url发起请求

（3）.解析响应结果：

a）.提取目标数据

b) .如何存在新的url，进一步提取（会执行1—3这个循环）

（4）爬虫结束：所有符合条件的url请求全部获取完毕，意味着爬虫结束

4为什么要使用python组爬虫？

PHP，java，c/c++，python。。。

PHP：可以用来做爬虫，但是对多任务的支持不是太好，爬虫是对象驴爬虫要求比较高的，所以说PHP天生不是干这个事情的

JAVA ：生态图很完善，并且用途非常广泛（后端，移动端。。），Java做爬虫是python最大的竞争对手，但是Java代码量比较大，重构的成本比较高。

c/c++：肯定是可以完成爬虫这件事的，并且运行的效率是非常高的，但是学习的门槛非常的高，各个模块可能需要你自己封装和定制。（能使用c/c++的人一般比较nb）

python：语法简介，代码优美，可读性高，并且对各模块的支持比较好，有很多强大的三方包，对多任务的处理也比较好，urllib，bs4，pyquery。。。），并且还有强大的scrapy爬虫框架和scrapy—redis的分布爬虫框架，并且python作为一门胶水语言，对于其他语言的调度也是非常方便的

爬虫分为两类：

通用爬虫：通过爬虫是浏览器的重要组成部分，将互联网上所有的网页下载到本地，做了一个镜像备份，提取重要数据（过滤数据，分词，去广告等等等，，）

步骤其实跟上面介绍的类似

搜索引擎的爬取得url通过什么方式获取得的？

1通过网站的外链

2通过网络提取的url：（百度http://zhanzhang.baidu.com/linksubmit/url）

3，各大搜索引擎公司也会和DNS 服务商合作

DNS：将我们的城名转化为ip的一种技术

通过爬虫（搜走引擎）的缺点：

1，需要遵循robot协议：Robots协议（也称为爬虫协议，机器人等）的全称是“网络爬虫排除标小

2搜索引擎返回的结果千篇一律没有很好的针对性，不能够特殊的用户群体返回对应的数据

3，搜索引擎一般情况下获取的是文本信息，处理图像，音频，视频多媒体还是又困难的。

聚焦爬虫：是面向主题的爬虫，由需求产生的，是一种定向的爬虫，在爬虫网页数据的时候，全对网页数据进行一些赛选，保证之抓取和需求相关的数据，以后我们更多的就是实现焦虑爬虫

做爬虫需要掌握的基本知识

1,python的基本语法

2，前端知识

3，数据持久化的知识

4，基本的反爬虫手段（header请求头，验证码，cookies，代理）

5，静态页面和动态页面（ajax，js）,selenium(获取页面源码是经过浏览渲染之后的最终结果

6多任务处理，爬虫框架，分布式爬虫等等

HTTPL超文本传输协议，主要使用；来将HTML文本传输到本地浏览器。

https：作用和HTTP一致，只是多了SSL（安全套接子层），保证数据传输的安全性

1，建立一个安全有效的数据传输通道，保证数据的安全性

2，保证网站的真是和有效性

url的组成部分：

1，scheme：协议

2，host：指的是城或者ip

3，port：端口

4，port：资源路劲

5，query—string：请求的参数

6，anchor：错点主要是实现页面的定位作用

请求头：

User-Aent：模拟浏览器加载

Cookies：携带cookies第一维持会话，告诉浏览器的身份信息

Refere：告诉浏览器，当前请求，是从那个页面发起的。

第一天爬虫

猜你喜欢

热点阅读