钟汉良日记：被发现，他把目录给删除了

2023-01-08 本文已影响0人钟汉良日记

2023年1月8日周日天气雨

这几天有点日夜颠倒了。今天下午五点多打开电脑，访问那个文章来源的网站，最新文章目录除了首页之外，其余的列表页都已经提示404了。也就是说，我大量复制人家文章的行为，已经被发现。

因此，我今天一天都没办法更新文章。之前计划好的按照最新文章目录的更新办法已经失效。我从六点多一直研究到晚上十点多，一直没找到确定可行的办法。直到将近0点的时候，我退而求其次，选择一种最笨的办法继续手动复制。

那我想了什么办法呢？需要复制的所有文章，排除一些百度网盘链接失效或者不存在的文章，从2019年到2022年，能复制的文章大概也在3万左右。我手动复制，每天勤快点，也需要一个月的时间。

现在人家把目录的列表页内页全部设置成404页面，也就是他看到了一个ip竟然每天从列表页大量访问他的网站。真实的潜在客户或者已经购买会员的客户，是不可能这样频繁访问的。那人家这样将列表页的内页去除掉，不让我们复制，就是普通个人第一个反应。

那我接下来就需要做几个选择。第一，要不就立马去学习下采集文章的方法；第二，要不就想个办法把他文章链接都提取出来。而今晚，我就花了大量的时间去了解怎么使用软件进行自动采集的方法。很可惜，我一时半会无法通过这个方法进行采集。

不过即使我几个小时能找到采集的方法，也需要解决另外一个问题，就是有的文章我已经复制，如果一次性采集过来，能发到自己网站了，也会让很多文章重复发第二遍。这样做，不利于搜索优化。

我只要退而求其次，想办法去把他所有的文章链接提取出来。除了总的文章更新页面，他已经删除了，具体的类目的目录页，他还保持着。而为了优化，他提交给搜索引擎的蜘蛛看的网站地图，也不能把所有的地图删除。这样会得不偿失。

不过即使要把他所有的文章链接提取出来，也难倒了我。我不会编程，就解决不了这种对于程序员而言特别简单的问题。会写程序的人，只要写一点代码就可以生成有这种功能的小程序。

百度搜了下，怎么自动提取URL的方法。还真的找到了一个网页版在线一次性提取URL的工具，这大大减轻了我的工作量。不过即使可以把所有的URL提取出来，我还需要解决另外一个问题，怎么把这几万个URL，以页面形式展现出来，就像我平时复制文章的时候那样，区别就是以前是看着标题复制，现在是看着URL复制。

我想到一个方法，将这些URL发布到网上，然后通过这个网页去看看是否能自动点击。第一个试验场，是把几千条URL复制到自己的个人网站。打开后台，发布新文章，一次性复制那么多内容，网站很久都没反应。第二个试验场，是QQ空间。打开空间，发布新日志，一次性复制那么多内容，空间一切顺利，几秒钟就发布了，而且可以直接点击链接。不过需要保存网页到本地，才能直接跳转到新页面。

而这时候，又一个问题出现了。那么多URL，我怎么识别哪些是已经点击过的，哪些是没点击的。这时，就需要一点HTML语言的基础了。通过在HTML源码里加入一些代码，或许就可以实现。

再次百度后，找到一个现成的单页面的HTML代码。未点击的时候，URL显示红色。点击后，URL显示灰色。鼠标移到URL上面，显示蓝色。刚才空间的源代码特别繁杂，就找了个替代品博客中国，博客的HTML代码比较简单。把几千条URL复制到这个单页的HTML的body里，保存后，竟然就可以了。

接下来的一个月，就用这个方法去把他的大部分文章复制过来。

钟汉良于福建武平

钟汉良日记：被发现，他把目录给删除了

猜你喜欢

热点阅读