钟汉良日记:被发现,他把目录给删除了
2023年1月8日 周日 天气雨
这几天有点日夜颠倒了。今天下午五点多打开电脑,访问那个文章来源的网站,最新文章目录除了首页之外,其余的列表页都已经提示404了。也就是说,我大量复制人家文章的行为,已经被发现。
因此,我今天一天都没办法更新文章。之前计划好的按照最新文章目录的更新办法已经失效。我从六点多一直研究到晚上十点多,一直没找到确定可行的办法。直到将近0点的时候,我退而求其次,选择一种最笨的办法继续手动复制。
那我想了什么办法呢?需要复制的所有文章,排除一些百度网盘链接失效或者不存在的文章,从2019年到2022年,能复制的文章大概也在3万左右。我手动复制,每天勤快点,也需要一个月的时间。
现在人家把目录的列表页内页全部设置成404页面,也就是他看到了一个ip竟然每天从列表页大量访问他的网站。真实的潜在客户或者已经购买会员的客户,是不可能这样频繁访问的。那人家这样将列表页的内页去除掉,不让我们复制,就是普通个人第一个反应。
那我接下来就需要做几个选择。第一,要不就立马去学习下采集文章的方法;第二,要不就想个办法把他文章链接都提取出来。而今晚,我就花了大量的时间去了解怎么使用软件进行自动采集的方法。很可惜,我一时半会无法通过这个方法进行采集。
不过即使我几个小时能找到采集的方法,也需要解决另外一个问题,就是有的文章我已经复制,如果一次性采集过来,能发到自己网站了,也会让很多文章重复发第二遍。这样做,不利于搜索优化。
我只要退而求其次,想办法去把他所有的文章链接提取出来。除了总的文章更新页面,他已经删除了,具体的类目的目录页,他还保持着。而为了优化,他提交给搜索引擎的蜘蛛看的网站地图,也不能把所有的地图删除。这样会得不偿失。
不过即使要把他所有的文章链接提取出来,也难倒了我。我不会编程,就解决不了这种对于程序员而言特别简单的问题。会写程序的人,只要写一点代码就可以生成有这种功能的小程序。
百度搜了下,怎么自动提取URL的方法。还真的找到了一个网页版在线一次性提取URL的工具,这大大减轻了我的工作量。不过即使可以把所有的URL提取出来,我还需要解决另外一个问题,怎么把这几万个URL,以页面形式展现出来,就像我平时复制文章的时候那样,区别就是以前是看着标题复制,现在是看着URL复制。
我想到一个方法,将这些URL发布到网上,然后通过这个网页去看看是否能自动点击。第一个试验场,是把几千条URL复制到自己的个人网站。打开后台,发布新文章,一次性复制那么多内容,网站很久都没反应。第二个试验场,是QQ空间。打开空间,发布新日志,一次性复制那么多内容,空间一切顺利,几秒钟就发布了,而且可以直接点击链接。不过需要保存网页到本地,才能直接跳转到新页面。
而这时候,又一个问题出现了。那么多URL,我怎么识别哪些是已经点击过的,哪些是没点击的。这时,就需要一点HTML语言的基础了。通过在HTML源码里加入一些代码,或许就可以实现。
再次百度后,找到一个现成的单页面的HTML代码。未点击的时候,URL显示红色。点击后,URL显示灰色。鼠标移到URL上面,显示蓝色。刚才空间的源代码特别繁杂,就找了个替代品博客中国,博客的HTML代码比较简单。把几千条URL复制到这个单页的HTML的body里,保存后,竟然就可以了。
接下来的一个月,就用这个方法去把他的大部分文章复制过来。
钟汉良 于福建武平