Python爬虫作业

Python青苔计划(七)简单爬虫

2017-04-30  本文已影响0人  请万万喝水
青苔计划

探索了有一阵子,写爬虫时却无从下手,今天琢磨了一个小爬虫,于我而言跟确切的说,我实现了抽取网站html代码,然后在代码上搜索的功能,这样算爬虫吗?!

自我感觉学习似乎到了转折点,站在放弃和坚持中线,锚点显得更加重要,这篇文章就是锚点

  • 运行环境:Python3.6.1

提取简书7日热门第一页文章的标题和作者
提取思路:按照各个对象标签属性的不同进行提取

  1. 文章名称


    文章名称
  2. 作者的昵称


    作者昵称标签

代码如下(附解析):

#这里有一个库,模块,函数的区分
#导入模块
from urllib.request import urlopen    #从urllib.request引入urlopen函数
from bs4 import BeautifulSoup

#抓取网页并处理
html=urlopen("http://www.jianshu.com/trending/weekly?utm_medium=index-banner-s&utm_source=desktop")  #打开目标链接
bsObj=BeautifulSoup(html.read(),"lxml")  #用BeautifulSoup对网页进行处理,注:Python3会主动建议添加‘lxml’
x=bsObj.findAll(class_="title",target="_blank")  #查找所有文章标题
y=bsObj.findAll(class_="blue-link",target="_blank")  #查找所有作者

#将数据整理进入列表
a=[] #分别建立用于储存文章标题和作者的列表
b=[]
for x1 in x:
    k=x1.get_text() #去除查找到的语句中的链接和标签
    a.append(k) #将文章标题加入a列表中
for y1 in y:
    m=y1.get_text()
    b.append(m)

#遍历输出
n=0
for k in range(1,len(a)+1): #循环遍历列表并输出
    print('《',a[n],'》'"  ",b[n])
    n+=1

输出结果(简书七日热门第一页):

C:\python36\python.exe C:/Users/Administrator/PycharmProjects/untitled2/hh.py
《 我也是第一次当 女朋友 》   不凡大叔
《 30个孤独的夜晚,我为你准备了30段独白和30张照片 》   有备而来的路人甲
《 为什么我可以靠阅读挣钱,你不行 》   彭小六
《 生而为穷人,我很抱歉! 》   衷曲无闻_
《 《人民的名义》:寒门再难出贵子 》   墨客书院
《 拿了一年的1.5K,可我没打算辞职 》   可可为
《 人潮拥挤,而我刚好遇见你 》   朝歌晚丽
《 希望你那么忙,做的都是自己热爱的事 》   有备而来的路人甲
《 过去的一年里,我偷拍了100个一眼忘不掉的陌生人(一) 》   有备而来的路人甲
《 家是最好的美颜塑身场所,美颜塑身DIY看这一篇就够了 》   fly九小仙儿
《 你好,西安 》   妄劫歌
《 一个人旅行走遍全国32个省是什么样的体验(附一个人旅行攻略) 》   潘帕斯雄鹰
《 人物专题征文公告|写出你心中最爱的那个作家 》   乔克儿
《 拼了命,我终于活出了父母讨厌的样子 》   沈万九
《 《人民的名义》之祁同伟:平民孩子想登天,一靠不服二靠干! 》   妖明岳
《 我喜欢你,认真且怂,从一而终 》   阿念姑娘
《 大学两年读了200多本书,向你推荐这7本 》   瓯南
《 如何在三个月内健康自然地变美? 》   二十初仲夏的树
《 坚持写手帐135天,生活发生了哪些改变? 》   萌薇
《 #青春不一YOUNG# 青春映象节参赛规则 》   我是简小妹

Process finished with exit code 0
上一篇下一篇

猜你喜欢

热点阅读