盘点简书究竟养肥了多少爬虫!
简书,是创作乐园。
同时也是网络爬虫的乐园。
在不去深究就岁月静好的假象底下,认真追查之后的真相又如何?
而那些下作网站利用爬虫技术对简书的侵权究竟有多严重?简书作者的文章又养肥了多少爬虫?
万籁俱寂的夜里,我仿佛听见了虫子蚕食的声音……
美文网
在简书首页,搜索感兴趣内容的框架内输入关键词“美文网”,你会发现于2019年有无数呼吁简书官方正视这个爬虫网站的帖子。
同时,你也会看见简书官方公告举报美文网的声明。
如今,美文网是否还在继续爬取简书文章?
很不幸的,美文网确实当简书官方是病猫,所以这条爬虫丝毫没有罢手的意思。
台部落
同样的,在简书首页输入“台部落”这三个字,显示的声讨与呼吁简书官方正视并维权的帖子至少三十多篇。
这回,简书官方连公告也懒得发了,对于简友的举报也只是官方回复——重视并紧急处理。
所幸在多篇声讨文让台部落的爬虫爬取后,就如同灭虫药发挥了作用,台部落这条爬虫自21/12/2021年之后就再也没敢潜入简书爬文。
然而,于2020年之前注册成为简书用户的简友,他们的个人主页至今仍然滞留在台部落。
更甚的是,台部落同时也是许多TW色站散播广告色帖的站点,因此窃取自简书的文章将无可避免地以那些不堪入目的帖子为伍。
别忘了,爬虫是自动爬文程序,所以文章里的链接自然也会跳转回到简书……不知情者会否将简书与台部落这两者互相挂勾也就难说了。
IT610
这是一个标榜私人收藏网站。
美其名为学术交流,实则利用爬虫窃取大量简书文章以充作流量招徕广告获利。
据搜索所得,此网站注册于北京,单位人称是赵磊。
网易新闻
这个盗文和一般爬虫网不同。
我在搜索过程无意中发现了一篇自己的文章才得以发现,在输入“简书”这个关键词以后,你会发现一个很诡异的现象。
若是在简书搜索以上的作者,你肯定徒劳无功。
就以我自己为例:
这篇文章作者署名一白聊故事,你如果利用网页搜索其中一小段,就会发现有另一版本。
然后再搜索这个一白聊故事的主页,只见一天更新好几篇,利用网页搜索又发现每一篇都是搬运文;同样的,其他被搬运至网易的简友也是一模一样的操作。
你若是以为这是个人抄袭行为就大错特错了,因为作者与头像都是虚的。
大量简书文章在这里都经过加工化名处理,然后再分配至各个不同的主页,但是文章标题若有原作者之名却被大意忽略……这是人为或程序疏忽倒是不得而知了。
以午夜情书为例:
简友夏不安曾知会我,午夜情书抄袭了我某篇文章,然而我却一直搜索不到午夜情书的页面,如今却在网易一并寻着。
从截图可见,那是一篇消零派的月份总结,但是作者原名则仍旧保留在标题内。
网易并非小网站,然而也一样肆无忌惮在爬文,对此,我百思不得其解。
短文学网
我真怀疑平台上的文章是资源共享了。
这绝非抄袭,应该也是爬虫自动爬取更新,而且更新挺快的。
但是,有些被爬取的主页并非一篇不漏地搬运,有些百篇以上的也只是搬了两、三篇。
至于是否正准备全面爬取则不敢断言。
点进其中一篇观察,文章前竟然还标注“原文出处”,难道对方已知会简书官方?
而简书官方忘了应该通知原作者?
我当然不懂,只是在猜测到底有几种可能性?
每日教育网
这个网站也是以“简书消零派”为关键词搜索得来。
点开这个网站的主页,里头当然也有大量简书作者的文章。
轰轰烈烈不过是刚好而已,人生的下半场拼的是孩子,《 无人知𣇈:一个90后小镇青年的野蛮生长 》1章2节:生日礼物是“单亲与寄居”……这些文章的发表日期皆是05/02/2022,前后仅相差三个多小时啊!
摄影圈子
这也是私人网站?
当中发现了三个自称为作者,一叫摄影、一叫人生旅途、还有一个叫文艺调频。
也许还有更多……
不过,就以搜索的文章而言,却是好几位简友的作品。
除外,这就位在简书都注册了几个账号。
否则,真相就只有一个了。
离奇的是:
摄影圈子究竟是什么圈子?
也许,会有简友知道答案?
至于还有没有其他的网站也有简书的文章?
我相信还有。
据搜索资料所知,网络爬虫访问网站的过程会消耗目标系统资源。
如果这么多爬虫前来简书爬文,简书的系统能承受吗?
我不懂这些,只是很好奇简书系统经常出状况,到底和爬虫有没有关联呢?
而简书官方,你们还在装睡吗?
装睡就可以岁月静好吗?
在这深沉的夜里,我仿佛又听见虫子在爬行的声音了……