成长励志城市故事哲思

网络爬虫(五)

2019-05-11  本文已影响0人  zhangxiaohao
对网页进行数据解析的原理主要有两点:

1.进行标签定位。
2.提取标签间数据,或提取标签属性中的数据。

bs4数据解释过程:
安装bs4相关的模块
pip install bs4
pip install lxml

调用bs4主要代码有: soup=BeautifulSoup(page_text,'lxml')
page_text就是网页的源码文本

如下代码例子:
import requests
from bs4 import BeautifulSoup

if __name__=='__main__':
    url='https://travel.163.com/19/0511/01/EES1RQ9O00068AIR.html'
    # 设置user-agent用字典的形式
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE'}
    res=requests.get(url=url,headers=headers)
    page_text=res.text
    soup=BeautifulSoup(page_text,'lxml')
    print(soup.a)
BeutifulSoup对象主要有以下方法与属性
上一篇下一篇

猜你喜欢

热点阅读