爬虫笔记

2017-02-08  本文已影响0人  Benmolly

1 URL(统一资源定位符)

1.1 一般格式

protocol://hostname[:port]/path/[;parameters][?query]#fragment

1.2 组成

1.3 与URI的区别

URI是统一资源标识符,用字符串来标识某一互联网资源
URL是统一资源定位符,表示资源的地址
因此URI属于父类,而URL属于URI的子类

2 设计中的特别注意

不要重读爬取同一个URL的内容,如果没做这方面的预防,如果一个URL的内容中包含该URL本身,那么就会陷入无限递归

3 修改headers

4 代理

4.1 步骤

5 获取Request对象具体使用哪种方法访问服务器

get_method()

6 服务器如何确定你是否登录

服务器通过判断你提交的cookie来确定。

6.1 cookie分类:

7 Beautiful Soup

7.1 对象

8 生成器(generator)

作用:一次产生一个数据项,并把数据项输出

格式:

def 函数名(参数):
...
yield 表达式

用法

generator函数的定义和普通函数的定义没什么区别,只要在函数体内使用yield生成数据项即可
generator函数可以被for循环遍历,并且可以通过next()方法获得yield生成的数据项

与return的区别

yield生成值并不会中止程序的执行,返回值后程序继续往后执行,return返回值后,程序将中止执行

上一篇 下一篇

猜你喜欢

热点阅读