火车采集器 采集邮箱 步骤

2016-02-26  本文已影响442人  WTIFS
  1. 注册
    http://www.locoy.com/user/register

  2. 安装火车采集器

  3. 安装完成后,打开火车采集器,登陆进入主界面

  4. 单击菜单栏上方的新建任务

    QQ截图20160226104055.jpg
  5. 起始网址处填入要抓取的网址,这里以 http://www.douban.com/group/topic/10478214 为例。点击右侧的起始网址就是内容网址?点击设置

    QQ20160226104356.jpg
  6. 填好后单击上方的2.内容采集规则标签页

    QQ20160226105520.jpg
  7. 单击左侧标签列表栏的内容

    QQ20160226105655.jpg
  8. 在右侧数据获取栏中,提取方式选正则提取,勾选右侧的循环匹配,在匹配内容区域粘贴以下表达式:
    (?<content>\b[a-zA-z0-9_\-\.]+@[\w\-\.]+\.[cno][oner][mtg]?\b)

    QQ20160226111740.jpg
  9. 在右侧数据处理栏中,单击内容过滤,勾选采集数据不得为空采集结果不得重复

    QQ20160226113659.jpg
  10. 左侧循环设置里,"用分隔符连接在上条记录后"改为"添加为新记录"

  11. 切换至内容发布规则标签,左侧栏选择保存为本地文件,在右侧,本地文件保存选择启用,然后选取保存文件格式和保存位置。在底部输入任务规则名,然后保存

    QQ20160226112244.jpg
  12. 回到主界面,在左侧任务列表中,点选刚刚创建的任务,把三个选项框都打上勾,然后右击刚刚创建的任务,单击开始。

    QQ20160226114551.jpg
  13. 火车采集器下载地址:
    http://www.locoy.com/

上一篇下一篇

猜你喜欢

热点阅读