SpiderMan(一)简单爬虫

2018-11-12 本文已影响155人九天学者

简单爬虫就是爬取静态网页（比如Nature期刊的文献信息），然后用BeautifulSoup解析html代码，获取所需信息！

详细可参考莫凡python爬虫系列课程，这里只列举一些主要的代码

Python包

有些不一定是必须的，但是会让你的爬虫操作更舒服

import numpy as np
from urllib.request import urlopen
from bs4 import BeautifulSoup
import time
import os
import datetime
from console_progressbar import ProgressBar
from colored import fg, bg, attr
import wget
import csv

打开网页

根据给定url打开网页，然后把html代码喂给BeautifulSoup获取甜汤😎

html = urlopen(url_nature).read().decode('utf-8')
soup_home=BeautifulSoup(html,features='lxml')

解析网页

接下来就是BeautifulSoup的任务了，获取元素或者标签的数据，当然这个过程中要是加入正则表达式(这是另一个话题了)进行匹配会更高效！

比如获取nature页面内的所有专业分类的url，主要就是find_all，后面跟标签，然后也可以再geng

alldata_all_subject=sout_home.find_all('a',{'data-track-action':'all subjects'}) #在官网上打开主页查看网页html结构获得
url_all_subject=url_nature+alldata_all_subject[0]['href']
print(C_GREEN+'nature all subject url found: ',C_DEFAULT,url_all_subject)

SpiderMan(一)简单爬虫

Python包

打开网页

解析网页

猜你喜欢

热点阅读