爬虫入门(一)

2017-08-21  本文已影响9人  inna1021

一、爬前准备

1、安装pip安装套件

pip install requests

pip install BeautifulSoup4

2、Chrome用户内建开发人员工具

检查—>Network—>Doc

3、编辑视窗

pip install jupyter

#  进行编辑:jupyter notebook

二、使用requests.get取得页面内容:

import requests

res = requests.get("http://finance.ifeng.com/" )  # 调用网页链接

res.encoding = "utf-8"     # 汉显

print(res.text)

三、使用BeautifulSoup将页面内容剖析出来('html.parser'—剖析器)

1、范例提取页面相关内容:

调用BeautifulSoup包,爬取页面全部内容 提取<h1></h1>内容 提取<a></a>内容

2、取得特定css属性元素:

3、在网页的连接上,取得所有a标签内的链接

例:

3、确定元素抓取位置:

三、根据不同HTML标签取得对应内容

根据HTML标签爬取内容
上一篇下一篇

猜你喜欢

热点阅读