PYTHON爬虫基础

2019-12-06 本文已影响0人楠昭

python3中统一使用Unicode编码，用4字节表示一个字符，而网络中的数据包用utf-8编码，所以需要进行编码转化

编码转化

专门处理http套接字，可以像处理文件一样处理网页

from urllib import urlopen #ps:关于import和from xxx import xxx
url='xxx'
fhand = urlopen(url).read() #返回句柄

from bs4 import BeautifulSoup
soup = BeautifulSoup(fhand,'html.parser')

四大对象种类

其中soup是html转化后的树形文档，其每个节点都是python对象，所有对象可以归纳为4种: Tag , NavigableString , BeautifulSoup , Comment

1. Tag
和html原生文档中标签相同

tag = soup.article
for p in tag.parents:
    print p.name

2. NavigableString
获得标签内的可遍历字符串
soup.p.string

3. BeautifulSoup
BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象，是一个特殊的 Tag

4. Comment
处理html种注释

文档树搜索

find(name , attrs , recursive , string , ** kwargs)
只返回第一个满足条件的元素
find_all(name , attrs , recursive , string , ** kwargs)
指定name搜索：find_all('a')
指定属性搜索：find_all(class='xxx')

CSS选择器
soup.select('标签名')

常用：
find寻找第一个满足条件的情况
find_all返回一个列表
find('xxx',attrs='xxx')如：find('div', class_='result')找到class为result的第一个div