RuiJi Scraper 网页视觉识别

2018-11-20 本文已影响0人朱平齐

网页设计师在设计网页的过程中，往往会考虑页面的视觉结构，这使得使用者可以快速分辨出网页不同区域(RuiJi Scraper的数据块，数据片，元数据就是基于此所定义)。在大多数的网页中，页面中的不同的区域会通过横向或纵向布局，布局块边距等来达到视觉识别目的。以如下页面为例：

从整体上来看，该页面分为导航区，搜索结果区，热词区。每个区域内还有区域划分，例如搜索结果区的每个搜索结果还分为文本区和缩略图区。这种结构良好的页面，通过视觉识别算法可以将不同区域的内容自动识别出来。

下面我们来介绍RuiJi Scraper网页视觉识别功能的使用。我们同样也上面的页面为例。

1. 首先打开搜狗微信搜索，搜索任意关键词，到搜索结果页面

2. 打开RuiJi Scraper抽取面板，视觉识别位于公共选项卡第一项

这里面的选项为过滤条件，视觉识别出的元素可能很多，我们只对其中一部分感兴趣，选项的默认值所表示如下：

宽：显示宽度在0像素-1024像素之间的Dom

高：显示高度在0像素-1024像素之间的Dom

深度：Dom树深度，显示深度0-深度50

子块：具有大于等于5的子块

重组：根据class或path重组数据，适合部分结构不太良好的页面

移除相同数据：如果某列识别出的数据完全一样，该列将不再结果中展示

3. 点击识别按钮

4. 观察识别结果

这里的5:0的意义为冒号前为深度，冒号后面为序号，深度可以用来重新设置深度过滤条件，序号仅是编号。

5. 点击识别出的区域上面的编号

6. 查看识别结果

这看着有些挤，但是您可以将面板停靠在页面下端来观看抽取结果，或者直接使用导出按钮，导出结果后查看。