2018-03-08

2018-03-09  本文已影响0人  秦时明星

BeautifulSoup与requests的官方文档

BeautifulSoup的简易介绍

from bs4 import BeautifulSoup
  • Tag
  • NavigableString
  • BeautifulSoup
  • Comment
In [13]: soup.a
Out[13]: <a href="https://www.waerfa.com/" rel="home">Mac玩儿法</a>

In [14]: soup.a.string
Out[14]: 'Mac玩儿法'

遍历文档树

搜索文档树

1 find_all(name, attrs, recursive, text, **kwargs)

传字符串

soup.find_all('a')

传正则表达式

soup.find_all(re.compile("^b"))

传列表

soup.find_all(["a","b"])
soup.find_all(id="link2")
soup.find_all(text="Documents")

CSS 选择器

CSS 选择器 标签名不加任何修饰,类名前加. , id前加#
soup.select() 方法,返回的是List

soup.select("title")
soup.select(".sister")
soup.select('#link2')
两者用`空格`分开,直接子标签查找用 `>`
soup.select('p #link2')
soup.select('head > title')
soup.select('a[class="sister"]')
获得的是列表,用遍历get_text()获得其内容
soup.select("title")[0].get_text()

Json数据格式

JSon就是JavaScript中的对象和数组

  • 对象在Js中为{}里的内容,数据结构为{键:值,键:值···}键值对,key为属性,value为属性值 取值方法为 对象.key,属性的类型可以是数字、字符串、数组、对象等
  • 数组在js中为[]中的内容,数据结构为["python","javaScripts","C++"],使用索引取值,字段值类型可以是数字、字符串、数组、对象。
import json
上一篇下一篇

猜你喜欢

热点阅读