(五)爬虫-爬取ADHD论坛的题目

2018-12-28  本文已影响0人  迢迢0515

这是在做项目时的一个真实需求:需要了解ADHD家长、孩子的需求是什么,找到了一个ADHD的论坛(http://www.adhd.org.cn/forum),上面聚集了一些ADHD儿童的家长,基本上标题上就直观地反映了他们的一些需求。所以我就想简单的将标题都爬下来。

观察一下这个网站的结构,发现

(1)    这些标题都在<tr>标签下,但是为了页面显示奇偶行的样式不同,这些<tr>标签的class分别evenTableRow和oddTableRow,所以没有用这个标签。

(2)    一致的地方体现在都是<div style = “float:left”>的标签的第一个元素的文字部分,决定采用这个特征进行爬取。

代码
上一篇 下一篇

猜你喜欢

热点阅读