爬虫之JAVA搜索引擎爬虫识别
所谓人之初性本善,爬虫诞生之初也是善良的,但是随着时代发展,尤其大数据|机器学习等兴起之后,爬虫也像慢慢长大的人一样,有了 善意与恶意 之分(说明:爬虫技术无分善恶,这里指技术利用,最好遵循reboot君子协议,至少不要把人家爬瘫吧)。
1、善意爬虫
善意爬虫最常见的莫过于各个大的搜索引擎厂家,他们释放数以亿计的爬虫每天孜孜不倦的穿梭于各个服务之间,收录我们的网站服务信息,以供用户检索查询(虽然搜索出来大多数都是广告),作为网站服务的运营商,每天都大开方便之门欢迎他们来爬,虽偶尔会造成服务器压力,可以通过君子协议约束(如reboot文件),这种爬虫就可定义为善意的。
2、恶意爬虫
恶意的爬虫就不那么友好了,有的是小恶、有的是万恶;常见的小恶:每年的毕业设计来临之季,有些做数据分析相关毕设的同学,为了收集数据,释放了N多个小爬虫在网上乱窜。最重要的是:同学收集好了数据,记得关一下呀,交了毕设,爬虫也被抛到九宵云外,这些无人认领的小爬虫也就成了僵尸爬虫,这种往往是小恶。
常见的大恶:有没有想过为啥抢不到火车票、为啥抢不到专家号,因为你的手不可能快过爬虫;还有一些所谓大数据创业公司,他们的大数据从哪来?爬虫;这些收集来的数据其中就有很多敏感的个人信息数据,比如某些提供征信服务的小公司,比如某简历大数据公司被“一锅端”(网上可查);这些涉及个人敏感数据非法收集的都是大恶了,还有那些把别人服务器爬瘫的等等。
3、惩恶扬善
理清楚了善恶,就要惩恶扬善了;在发赏善罚恶令之前,要先识别善恶,辨恶通常的手法是:1、IP频次识别 2、UA判断 3、Referer判断 4、参数hash验证 等手段,这里不是今天的重点(以后详谈识别防护)。重点扬善,就是如何识别善意爬虫,要不花那么多钱做SEO不是打水漂了。
4、JAVA识别善意爬虫
技术手段很简单,就是通过IP域名反查来实现,window下通过nslookup、linux下通过host来反查,不扯淡,直接上代码(DEMO)。
public class nslookup {
public static void main(String args[]) {
System.out.println(spiderBGMU("111.206.221.6"));
System.out.println(spider360("180.153.232.12"));
}
// 百度匹配 http://help.baidu.com/question?prod_id=99&class=476&id=2996
/*
* baidu.com baidu.jp 111.206.221.6 百度
* googlebot 66.249.67.254 谷歌
* msnbot-103-25-156-254.search.msn.com 103.25.156.254 必应
* unknown-68-180-228-x.yahoo.com 68.180.228.254 雅虎
*/
private static boolean spiderBGMU(String ip) {
String command = "host"; // 默认linux
Properties props = System.getProperties();
String osName = props.getProperty("os.name");
if (osName != null && osName.toLowerCase().contains("win")) {
command = "nslookup";
}
try {
Process p = Runtime.getRuntime().exec(command + " " + ip); // host
BufferedReader br = new BufferedReader(new InputStreamReader(p.getInputStream()));
String inline;
StringBuffer sb = new StringBuffer("");
while ((inline = br.readLine()) != null) {
sb.append(inline).append(" ");
}
br.close();
System.out.println("baidu>>>" + sb);
return sb.indexOf("baidu.com") > 0 || sb.indexOf("baidu.jp") > 0 || sb.indexOf("googlebot") > 0
|| sb.indexOf("msnbot") > 0 || sb.indexOf("yahoo.com") > 0;
} catch (Exception e) {
e.printStackTrace();
return false;
}
}
// 360匹配 http://www.so.com/help/spider_ip.html
// 这里实现非精确匹配,如果需要精确,可以下载全量列表
private static boolean spider360(String ip) {
String item = " 180.153.232.*,180.153.234.*,180.153.236.*,180.163.220.*,42.236.101.*,42.236.102.*,42.236.103.*,42.236.10.*,42.236.12.*,42.236.13.*,42.236.14.*,42.236.15.*,42.236.16.*, 42.236.17.*,42.236.46.*,42.236.48.*, 42.236.49.*,42.236.50.*, 42.236.51.*,42.236.52.*,42.236.53.*,42.236.54.*,42.236.55.*,42.236.99.*";
System.out.println("360>>>" + objIP);
if (item.contains(objIP)) {
return true;
}
return false;
}
}