Heritrix 入门教程

2017-10-23  本文已影响0人  没有颜色的菜

HeritrixDemo

Heritrix是由java语言开发的一种开放源代码的网络爬虫框架,对网站内容全部下载,不会修改页面中的任何内容。可以用Heritrix来完整、精确地抓取网站中的资源,包括视频、音频、图像以及其它非文本内容,抓取并把这些内容存储在磁盘中。爬虫通过Web界面启动、监控、控制,允许用户自定义要获取的URL, 采用Spring框架进行设计,实现解耦,有很好的扩展性。

QuickStart

Syetem requirements

Install

Run

Create New Job

新建任务  

新建任务 !
管理任务  
管理任务
配置任务(添加种子)
配置任务

Start job

上一篇 下一篇

猜你喜欢

热点阅读