爬虫基础面试题

2018-10-26 本文已影响73人 IPhone2

1.反爬措施

1.你写爬虫的时候都遇到过什么反爬虫措施，你是怎么解决的？
设置用户代理伪装浏览器
禁止IP 设置代理服务器（一般是收费、测试可以用免费的）
验证码通过机器学习相关模型框架设别（后面再说）
动态加载 ajax（追踪请求过程，对url进行抓取，进而请求）非常复杂的（selenium+无界面浏览器）
加密问题解密（解密算法）
账户阻挡通过登录
爬虫和反爬的博弈是做爬虫的核心问题，最终所有的反爬策略都会被解决掉，只不过公司成本能不能负担的了

2.为什么会用到代理？代理怎么使用（具体代码，请求在什么时候添加的代理）? 如果遇到代理失效该怎么办？
当我们频繁的爬取某些网站的时候，这些网站有可能会启动其反爬机制，对我们的ip地址进行限制，为了突破这种限制，可以设置代理服务器，对我们的ip进行隐藏。
可以设置一个代理池（一个列表放了多个代理服务器的ip），对代理进行管理，如果某一个禁用立即启用下一个
3.cookie如何处理？
创建cookie->创建handler携带cookie->使用opener携带handler进行请求

2.HTTP协议

1.请您解释一下什么是http协议？
是基于请求与响应的应用层协议，底层协议TCP保证了数据可靠传输 2）通过url进行客户端与服务器之间的数据交互 3）是一种C/S（B/S）模式的协议，客户端向服务器发起请求，服务器处理请求并且返回响应 4）该协议是一种无状态的协议（不会记录用户的访问状态）

2.请谈一下get和post的区别？
形式上：get请求参数拼接在url后面 post请求不体现在url中
内容上：get请求有数据量的限制（不同的浏览器对url最大长度都有不同的限制），post的请求是不限制请求体数据量的（有的web服务器会有一个最大请求体的限制，比如阿帕奇限制为20M）

3.http协议和https协议有什么区别？

4.http协议的常见状态码，及其含义？

5.如何取配置https协议？

3.其它

1、如何动态加载的数据？
简单的ajax请求：抓包得到ajax的url对该url进行追踪
复杂的动态加载：一般采用selenium+chromedriver或selenium+PhantomJS，进行js代码的解析执行，得到其执行以后html字符串，进一步用xpath、bs4或正则来解析

2、迭代器，生成器，装饰器
迭代器：
生成器：
装饰器：不改变原函数的功能基础上，装饰（增加）新的功能，是的函数可以实现更加广泛的应用。这种设计模式好处，解耦合

3、Python里面如何拷贝一个对象？（赋值，浅拷贝，深拷贝的区别）
赋值：把等号右边的数据，存储到左边变量所开辟的内存空间中
浅拷贝：只拷贝引用不拷贝对象本身，一旦有一个引用修改，所有的引用都会被迫修改
深拷贝：直接拷贝对象本身，产生一个新的对象，并且产生一个新的引用

4、什么是并行和并发?
并行：多个进程在同一时刻同时进行
并发：多个进程在同一时间段内交替进行（操作系统大多采用并发机制），根据一定的算法(常见的就是时间片轮询算法)

5、什么是线程和进程?
进程：一个程序在操作系统中被执行以后就会创建一个进程，通过进程分配资源（cpu、内存、I/O设备），一个进程中会包含一到多个线程，其中有一个线程叫做主线程用于管理其他线程
线程：在一个进程执行的过程，一般会分成很多个小的执行单位，线程就是这些执行单位；在处理机调度，以线程为单位件进行，多个线程之间并发执行，线程占用的是cpu
多线程使用的场合：耗时操作（访问外存，即：I/O，访问网络资源），为了不阻碍主线程或者其他的操作，一般会采用多线程。

6、什么是协程?
协程是：在一个线程执行过程中可以在一个子程序的预定或者随机位置中断，然后转而执行别的子程序，在适当的时候再返回来接着执行。他本身是一种特殊的子程序或者称作函数。
遇到IO密集型的业务时，多线程加上协程，你磁盘在那该读读该写写，我还能去干点别的。在WEB应用中效果尤为明显。
协程的好处：
跨平台
跨体系架构
无需线程上下文切换的开销
无需原子操作锁定及同步的开销
方便切换控制流，简化编程模型
高并发+高扩展性+低成本：一个CPU支持上万的协程都不是问题。所以很适合用于高并发处理。

缺点：
无法利用多核资源：协程的本质是个单线程,它不能同时将单个CPU 的多个核用上,协程需要和进程配合才能运行在多CPU上.当然我们日常所编写的绝大部分应用都没有这个必要，除非是cpu密集型应用。
进行阻塞（Blocking）操作（如IO时）会阻塞掉整个程序：这一点和事件驱动一样，可以使用异步IO操作来解决

爬虫基础面试题

1.反爬措施

2.HTTP协议

3.其它

猜你喜欢

热点阅读