1.2解析网页
2016-06-02 本文已影响0人
doubleyou1001
- 使用BeautifulSoup解析网页
Soup = BeautifulSoup(html,'lxml')
- 描述要爬取的东西在哪
data = Soup.select('???')
- 从标签中获取信息,并装在数据容器中
CSS Selector和XPath都可以表示网页中元素的位置
一般采用get_text方法就可以了
title.get_text()
对于获得标签的属性,采用get 方法
image.get('src‘)
stripped_strings方法,有效解决多对一的标签,
获得一个副标签下的所有子标签的文本,由于内容是成组的,所以列表化
list(cate.stripped_strings)
打开文件有2种方式
fs = open("文件地址",“r")
print(fs.read())
fs.close
支持相对地址和绝对地址,必须调用close()函数,否则内存泄漏
with open("文件地址","r") as fs:
print(fs.read())