我爱编程

[Linux] Nutch 2.3.1+ Hbase + Had

2016-05-26  本文已影响2844人  圆尾

这是本指南的最后一篇,从开始做到完成,本熊花了一周的时间,碰到的错误也可谓千奇百怪。


纯初学者说明模式
本章节主讲实现本地模式


0.初期设置说明

路径说明

本熊假设Hadoop的主目录为HadoopPath,Hbase的主目录为HbasePath,Nutch的主目录为NutchPath,Solr的主目录为SolrPath

以下是本熊的解压位置:
HadoopPath的值就是 /usr/Dzy/hadoop-2.5.2
HbasePath的值就是 /usr/Dzy/hbase-0.98.8-hadoop2
NutchPath的值就是 /usr/Dzy/apache-nutch-2.3.1
SolrPath的值就是 /home/as/下载/solr-4.10.3

各位可以按照自己的路径进行设置,本熊再次只为说明方便

使用版本说明

就如同本熊在第一期中提到的,要选择正确的相互适应兼容的版本,会帮您省去大堆不必要的麻烦,减少脱发,改善睡眠,提高生活质量

  • Apache Nutch 2.3.1
  • Apache Hadoop 1.2.1 and 2.5.2
  • Apache HBase 0.98.8-hadoop2 (although also tested with 1.X)
  • Apache Solr 4.10.3
  • Apache Tomcat(可选,版本随意,用于集成solr)

1.Nutch的配置与编译

此处的配置只在local模式中测试成功,deploy模式还未进行测试

这里存放的是Nutch要爬取的网页

编译完成后目录结构是这样的,多出来一个runtime


目录结构

至此Nutch的准备工作就算完成了


2.Nutch启动

如果一步不差的完成了本熊指南前三期的准备工作,那就接下来就是按顺序启动服务了

local实验完成,这个实验只是简单的单机配置,若想要更加深入的了解Nutch的工作原理,可以在ant编译部分输入以下指令

    ant eclipse

这样可以在eclipse中加载Nutch项目,可以在这基础上做更贴近开发者自身想法的改进


第四期结束

到此为止,本熊把全部的实验过程都记录了下来,后在小Y的电脑上也试验成功了。累得本熊玩了好几天,但是本熊也很好奇,如何转化这些抓取的资源呢?也许这是向小Y这样的学术派才会考虑的问题,本熊只是俗熊,常常苦恼在三餐选什么,总之愿本文能对各位起到小小的帮助


相关内容
[Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 单机指南(一)
[Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 单机指南(二)
[Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 单机指南(三)
[Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 单机指南(四)

上一篇下一篇

猜你喜欢

热点阅读