利用 Bash 脚本编写自动抓取学校图书馆借阅信息的爬虫 Par

2017-12-05  本文已影响0人  阪本先生

自从弄了个 lcd4linux 之后总想着弄点什么自动化的东西显示出来,因为最近从图书馆借了点书,于是首先想到的是抓图书馆的借阅信息。

我实现的思路大概来说就是,用脚本模仿正常登录查询的步骤来发出并处理请求:先用 Wireshark 对我请求的过程抓包(最方便的方式了吧),然后获取到整个过程中的 HTTP 请求,接着查看每个请求都用了什么方法、发了哪些字段,最后分析出必要的请求并模仿之,逐一发送出去,然后保存获取到的 HTML 页面内容并过滤出有用的内容。

这个操作,流程虽说简单但略微繁琐而且有需要注意的地方。我是用 curl 命令来模仿这些过程,当发送 POST 请求的时候,发送出去的数据是经过了 URL 编码的,里面所有的特殊字符全部都会变成 URL 编码格式的字符,但我忽略了这一点,导致服务器不能正确响应请求而只获取到了错误页面。

除了第一次请求之外,其他的请求都要保存 cookie 来保持会话的一致性。学校的图书馆系统是分开两个并布置在在不同的端口上的,但之间的会话一致性貌似只是通过普通的发送账号密码并 JS 模仿登录框操作来实现(我没详细测试,不知道两个系统之间是否有 session 转移的问题),要注意两个不同的服务器的端口号。

在对第二个系统进行数据的查询的时候,发现了一个问题。浏览器地址栏上面的地址并不是真实的页面地址,而是通过 JS 改写地址栏之后的地址。直接使用 curl 查询的话会得出一个 "Object has remove to here"的页面,里面那个 here 是个超链接,指向之处才是真正的页面的地址。请求了真实页面地址之后,JS 会复写浏览器的地址为原来用户点击的超链接的地址。不知道这用意何在,但如果只是为了隐藏真实页面地址的话我只能说这嫩得一逼啊……

关于如何用命令提取有用信息,我在下一个部分里再讲。

上一篇下一篇

猜你喜欢

热点阅读