爬虫入门（一）

2017-08-21 本文已影响9人 inna1021

一、爬前准备

1、安装pip安装套件

pip install requests

pip install BeautifulSoup4

2、Chrome用户内建开发人员工具

检查—>Network—>Doc

3、编辑视窗

pip install jupyter

# 进行编辑：jupyter notebook

二、使用requests.get取得页面内容：

import requests

res = requests.get("http://finance.ifeng.com/" ) # 调用网页链接

res.encoding = "utf-8" # 汉显

print(res.text)

三、使用BeautifulSoup将页面内容剖析出来（'html.parser'—剖析器）

1、范例提取页面相关内容：

调用BeautifulSoup包，爬取页面全部内容

提取<h1></h1>内容

提取<a></a>内容

2、取得特定css属性元素：

3、在网页的连接上，取得所有a标签内的链接

例：

3、确定元素抓取位置：

三、根据不同HTML标签取得对应内容

根据HTML标签爬取内容