Hawk教程-简书版

Hawk教程-Hawk工程

2019-06-08  本文已影响0人  desert2017

Hawk工程

Hawk使用工程(Project)的概念描述一组任务的集合。在工程中,所有的任务可以互相引用,任务也可以访问内部的数据表,连接器和配置。 一个典型的工程包含以下内容:

已加载任务

打开Hawk后,即可在文件栏中,新建,加载,保存,另存为工程。这些概念和Windows中的标准实现接近,因此不多做介绍。还可以打开最近打开的文件, 直接加载工程。

注意:

1.Hawk工程介绍

Hawk的工程文件为xml或hproj, 在保存工程时,可以在文件保存对话框中,选取要保存的文件格式。下图是典型的xml工程文件内容:

工程配置文件

2.自动保存

为了提升Hawk运行的稳定性,Hawk3增加了自动保存的功能。 可以在系统配置中,设置自动保存的时间间隔(单位为秒)。当值小于等于0时,则不会自动保存。

保存的内容以xml或hproj形式后缀的文件记录在工程文件中。保存的内容包括:

系统设置

对工作线程的保存时:

  1. 正式线程是正式处理数据的任务,而非调试模式时自动刷新启动的临时任务。在下次启动时,上次未执行完的任务都会暂停,只有手动重启后才能执行。但并不精确
  2. 在重启线程时,可能会有一定的时延,因为线程会将指针移动到上次执行的位置,而这需要一定的时间。通常在10-30秒之内。
  3. 当加载或保存较大的数据表时,可能会有卡顿的情况。

3.全局配置系统

Hawk5新增了全局配置系统,方便在不同的任务间共享参数,并通过一次切换,更改所有任务的行为。

例如,针对链家开发爬虫时,不同的城市会有细微区别,如xpath,或名称... 因此可针对不同城市建立配置,切换配置即可在不同城市间切换,Hawk的模块在执行时会动态地获取这些数据。大大提升了重用性。

param.gif 全局参数设置

3.1.配置文件语法

Hawk采用了非常简单的配置写法,即yaml。为了方便编辑,可在外部的编辑器编辑完成后,拷贝到本编辑器中。

每行一个配置,键值之间用英文冒号,即:表示。 用#号来代表注释,所有以#号开头的行都会被当成注释而忽略。例如:

`#这是一行注释`
city: bj
xpath: your_xpath

在数据清洗的任意模块,大部分参数都能支持引用全局配置,语法是{key_name},例如{city},会将配置中city项的值拷贝过来。

注意:

3.2.新建和切换配置组

点击edit按钮,可增加新的配置组。 选择对应的配置组后,即可全局生效。

全局可配置参数
上一篇 下一篇

猜你喜欢

热点阅读