《自己动手写网络爬虫》第二篇笔记

2017-05-30 本文已影响63人 ve_故食

第二篇：自己动手抽取Web内容

正则表达式
HtmlParser:文本抽取，链接抽取，资源抽取，链接检查，站点检查，URL重写，广告清除，将HTML转化为XML，HTML页面清理。
抽取正文：驱除杂质，JavaScript抽取方案。
提取PDF内容 |————|
提取Office内容 | 各种库 |
抽取RTF |————|
抽取视频：关键帧(基于镜头边界系数)，镜头，情节，节目
抽取音频，MP3格式分为三个部分
网页中的噪声：与主要内容无关的文本、链接、图片、Flash等等。可以人工提取组织模式，一般用统计的方法实现网页去噪。

上一篇下一篇

猜你喜欢

热点阅读