什么是网络爬虫,每天都在忙乎什么?(下篇)
上篇文章中提到我成功到达了B站服务器,并且成功拿到了所需要的Cosplay图片,但是除了图片之外还有一些其他内容,带着很多疑问我开着车以光速回家了。
刚回到家,就有专门的装卸工帮我把带回来的东西搬下车并放到了整理车间。我也跟随着来到了整理车间,车间里面有一张工作台,装卸工已经把东西放到了工作台上面。工作台旁边放着一个垃圾桶和一个储物柜,工作台上放着很多纸条,纸条应该是用来填写任务的,还有一个查询器。我正在狐疑这些是用来做什么的,对面走过来一位看上去很像领导的人,“小伙子,辛苦了!鉴于你是第一次工作,我下面给你介绍一下具体的操作步骤”。我连忙点头,心想领导就是不一样,竟然一眼看出我对工作比较陌生。
“小伙子,一会你需要先把带回来的东西拆开,里面的图片是我们所需要核心物件,你首先要通过查询器查一下我们这有没有这张图片,如果有,你就直接丢到垃圾桶;如果没有,那么就可以放到储物柜了。”领导耐心地指导着。
“那除了图片之外的其他内容呢,怎么处理?”我迫不及待地提问着。
“嗯,小伙子不要急,听我慢慢讲。其他的内容主要是一些HTML,说白了就是B站的网页内容,这些网页里面包含着很多有用的信息。你一会要分析一下这些HTML中存在的超链接,超链接就是那些点击后可以跳转到其他网页的位置。”
“那请问这些分析出来的超链接有啥用呢?”我还是迫不及待的想知道答案。
“求知欲很强嘛。我们和B站之间可是好朋友,以后没准你每天都要B站很多次,但是B站里面那么多仓库,你下次该去哪一家获取我们所需的图片呢?这些超链接就是提示喔。发现新的仓库地址之后,你就填写一个任务纸条,上面写上目的地址以及要做什么事情。不过,发现的新仓库地址也需要先查询一下,是不是其他人最近已经去过了,要不就白跑一趟了”领导耐心的解答着,说完就背着手离开了,“小伙子,开始工作吧,熟能生巧喔”。
说干就干,我开始整理工作台上的内容。按照领导的指导,我这次从B站带回来了10张Cosplay漂亮姐姐照片,通过查询器过滤掉了3张图片,然后把剩下的7张图片放到了存储柜,每当把图片放到存储柜的时候都有一种莫名的成就感!
之后我重点分析带回来的HTML内容,真的在里面发现了3条超链接,都是指向B站其他仓库的地址,通过查询器过滤掉了其中一条链接,因为最近刚有一个小哥哥去过那里了。剩下的两个链接我分别填写了两张任务单,一个是去B站可爱街仓库,一个是去B站高达仓库。分析完顿时感觉很是疲劳,当我要离开工作台时,突然警报响了!我被警报吓出了一身冷汗,只见工作台操作面板上提示“请您输入这次访问的仓库地址并且填写访问时间,方便后续过滤排查使用”。我速度的填写了所需信息,心中默念“也是哈,我不填写的话,可能就会造成其他人再跑一趟漂亮街仓库,是我大意了,下次注意!”
以上就是我第一次工作的经历,很囧但是很有意义。之后的每天我都是领取任务单,然后开车去取内容,然后工作台上进行分析。周而复始,我现在几乎去过了各大网站,有几次我还出国了呢,去了美国和中东等国家。我就是网络爬虫,我很叼,每天全网到处跑!
【技术解读】
网络爬虫:更经常的称为网页追逐者,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。网络爬虫通过计算机网络连接到目的网站之后,获取网站信息内容,然后再进行网页分析。为了防止网站的重复爬取,对于爬取的内容都会进行标记,方式短期内重复爬取。