python简单模拟登陆抓取信息实例

2018-01-27  本文已影响0人  芒果和小猫

最近学了点关于python的网络爬虫的知识,简单记录一下,这里主要用到了requests库和BeautifulSoup库

Requests is an elegant and simple HTTP library for Python, built for human beings.

Beautiful Soup is a Python library for pulling data out of HTML and XML files. It works with your favorite parser to provide idiomatic ways of navigating, searching, and modifying the parse tree. It commonly saves programmers hours or days of work.

以上是两个库的介绍,链接是文档信息

1、示例页面

这里我利用东北大学的图书馆的登陆页面来实现我们的爬虫功能(ps:没错,博主是东北大学的学生..所以我有账号密码),没有账号密码也没有关系,原理都是差不多的,之所以找这个页面,是因为这个页面没有验证码,能够简单一些,而且像学校的这种页面一般比较简单,方便操作

东北大学图书馆.JPG

2、简单分析

首先我用的账户和密码登陆进了东北大学图书馆,我使用的是chrome浏览器,打开开发者模式,我们来看看我们提交了哪些信息。


东北大学post.JPG

登陆进去后,按下F12打开开发者模式,在Network选项卡下面,我们找到这个文件,他的request方法是post,应该就是我们要找的文件了,拉到最下面看到Form Data,红色框出就是我们登陆时提交的信息了,一共五个部分,画红线的地方是账号和密码。搞清楚了post的信息后,我们就可以写代码来自动提交信息了。

登陆部分搞清楚了,接下就要分析要抓取的信息了,现在我要抓取我的

要抓取这三个数据,如上图所示,我当前外借1本书,借阅过65本书,预约请求为0,现在的目的是将这些数据抓取出来,我们按下F12来查看网页的源代码,分析我们应该抓取哪一部分。


源代码.JPG

如上图所示,一步步找到了数据所在的标签,我发现数据都在id=history这个标签下,所以可以先找到这个标签,然后再找tr标签,然后就能找到td标签里的数据了。

3、实现的功能

4、代码部分

4.1、post数据的部分

首先贴上这部分的代码

def getHTMLText(url):
    try:
        kv = {'user-agent': 'Mozilla/5.0'}
        mydata = {'func':'login-session', 'login_source':'bor-info', 'bor_id': '***', 'bor_verification': '***','bor_library':'NEU50'}
        re = requests.post(url, data=mydata, headers=kv)
        re.raise_for_status()
        re.encoding = re.apparent_encoding
        return re.text
    except:
        print("异常")
        return""

代码如上,我们来分析一下

4.2、抓取数据部分

首先贴上代码

def fillBookList(booklist, html):
    soup = BeautifulSoup(html,"html.parser")
    for tr in soup.find(id='history').descendants:
        if isinstance(tr, bs4.element.Tag):
            temp = tr.find_all('td')
            if len(temp)>0:
                booklist.append(temp[1].string.strip())
                booklist.append(temp[3].string.strip())
                booklist.append(temp[5].string.strip())
                break

isinstance 的用法:
语法:
isinstance(object, classinfo)
其中,object 是变量,classinfo 是类型(tuple,dict,int,float,list,bool等) 和 class类若参数 object 是 classinfo 类的实例,或者 object 是 classinfo 类的子类的一个实例, 返回 True。 若 object 不是一个给定类型的的对象, 则返回结果总是False。若 classinfo 不是一种数据类型或者由数据类型构成的元组,将引发一个 TypeError 异常。

4.3、打印信息

贴上代码

def printUnivList(booklist):
    print("{:^10}\t{:^6}\t{:^10}".format("外借","借阅历史列表","预约请求"))
    print("{:^10}\t{:^6}\t{:^10}".format(booklist[0],booklist[1],booklist[2])

这部分很简单就不说了

4.4、主函数

贴上代码

def main():
    html = getHTMLText("http://202.118.8.7:8991/F/-?func=bor-info")
    booklist = []
    fillBookList(booklist, html)
    printUnivList(booklist)

5、测试

测试.JPG

成功的在控制台打印出了我们要的信息!

6、完整的代码

import requests
from bs4 import  BeautifulSoup
import  bs4

def getHTMLText(url):
    try:
        kv = {'user-agent': 'Mozilla/5.0'}
        mydata = {'func':'login-session', 'login_source':'bor-info', 'bor_id': '***', 'bor_verification': '***','bor_library':'NEU50'}
        re = requests.post(url, data=mydata, headers=kv)
        re.raise_for_status()
        re.encoding = re.apparent_encoding
        return re.text
    except:
        print("异常")
        return""

def fillBookList(booklist, html):
    soup = BeautifulSoup(html,"html.parser")
    for tr in soup.find(id='history').descendants:
        if isinstance(tr, bs4.element.Tag):
            temp = tr.find_all('td')
            if len(temp)>0:
                booklist.append(temp[1].string.strip())
                booklist.append(temp[3].string.strip())
                booklist.append(temp[5].string.strip())
                break

def printUnivList(booklist):
    print("{:^10}\t{:^6}\t{:^10}".format("外借","借阅历史列表","预约请求"))
    print("{:^10}\t{:^6}\t{:^10}".format(booklist[0],booklist[1],booklist[2]))

def main():
    html = getHTMLText("http://202.118.8.7:8991/F/-?func=bor-info")
    booklist = []
    fillBookList(booklist, html)
    printUnivList(booklist)

main()
上一篇 下一篇

猜你喜欢

热点阅读