网页爬虫的业务抽象

2015-04-23  本文已影响0人  ffffffffffffff
爬虫动作

网页爬虫需要获取网页特定的HTML标签内容和内容中的资源文件,分解下来动作有:

  1. 拿网页HTML
  2. 抓标签(通过 id、标签名、name、class、自定义attr等条件匹配)
  3. 下载资源
流程

将文本内容和资源内容的获取分离,先获取文本,最后集中处理资源文件,在修改和实现UI时会方便。资源一般会用到线程下载,因为单线程会使用户界面进入假死状态,下载是提供进度条会是一个友好的交互选择。

上一篇 下一篇

猜你喜欢

热点阅读