网页爬虫的业务抽象

2015-04-23 本文已影响0人 ffffffffffffff

爬虫动作

网页爬虫需要获取网页特定的HTML标签内容和内容中的资源文件，分解下来动作有：

拿网页HTML

抓标签(通过 id、标签名、name、class、自定义attr等条件匹配)

下载资源

流程

将文本内容和资源内容的获取分离，先获取文本，最后集中处理资源文件，在修改和实现UI时会方便。资源一般会用到线程下载，因为单线程会使用户界面进入假死状态，下载是提供进度条会是一个友好的交互选择。