论文

SpiderMan(一)简单爬虫

2018-11-12  本文已影响155人  九天学者

简单爬虫就是爬取静态网页(比如Nature期刊的文献信息),然后用BeautifulSoup解析html代码,获取所需信息!

详细可参考莫凡python爬虫系列课程,这里只列举一些主要的代码

Python包

有些不一定是必须的,但是会让你的爬虫操作更舒服

import numpy as np
from urllib.request import urlopen
from bs4 import BeautifulSoup
import time
import os
import datetime
from console_progressbar import ProgressBar
from colored import fg, bg, attr
import wget
import csv

打开网页

根据给定url打开网页,然后把html代码喂给BeautifulSoup获取甜汤😎

html = urlopen(url_nature).read().decode('utf-8')
soup_home=BeautifulSoup(html,features='lxml')

解析网页

接下来就是BeautifulSoup的任务了,获取元素或者标签的数据,当然这个过程中要是加入正则表达式(这是另一个话题了)进行匹配会更高效!

比如获取nature页面内的所有专业分类的url,主要就是find_all,后面跟标签,然后也可以再geng

alldata_all_subject=sout_home.find_all('a',{'data-track-action':'all subjects'}) #在官网上打开主页查看网页html结构获得
url_all_subject=url_nature+alldata_all_subject[0]['href']
print(C_GREEN+'nature all subject url found: ',C_DEFAULT,url_all_subject)
上一篇 下一篇

猜你喜欢

热点阅读