用Python学爬虫,第一周第二课:筛选出评分大于3的文章

2016-10-10  本文已影响0人  张强1007

第二课学习需要数据结构和循环的知识,这部分我还没看到,就一边跟着老师敲代码一边学习了。
提前总结一点,不敲不知道,一敲吓一跳。

供统计的网页如下:
统计评分大于3的文章
我的代码:
from bs4 import BeautifulSoup
info=[]
with open('/home/steven/Downloads/Plan-for-combating-master/week1/1_2/1_2code_of_video/web/new_index.html','r') as wb_data:
    Soup = BeautifulSoup(wb_data,'lxml')
    images = Soup.select('body > div.main-content > ul > li > img')
    titles = Soup.select('body > div.main-content > ul > li > div.article-info > h3 > a')
    rates = Soup.select('body > div.main-content > ul > li > div.rate > span')
    cates = Soup.select('body > div.main-content > ul > li > div.article-info > p.meta-info')
    descs = Soup.select('body > div.main-content > ul > li > div.article-info > p.description')

for title,rate,desc,cate,image in zip(titles,rates,descs,cates,images):
    data = {
        'title':title.get_text(),
        'rate':rate.get_text(),
        'desc': desc.get_text(),
        'cate': list(cate.stripped_strings),
        'image':image.get('src')
    }

    info.append(data)

for i in info:
    if float(i['rate'])>3:
        print(i['title'],i['cate'])
代码运行结果:
筛选结果
总结:
上一篇 下一篇

猜你喜欢

热点阅读