Python爬虫作业

2017/06/06 第一次爬取数据

2017-06-06  本文已影响98人  starCoder

简单爬取松花江新闻网新闻[http://www.shjnet.cn/ms/msxw/]

1、先分析网页的源码查看要爬取的内容在什么位置
2、分析html取到想要的内容


1、 查看源码

image.png
发现我们要的数据在<h4 标签下

2、通过编码通过requests获取网页源码

html = requests.get(url).content

然后通过BeautifulSoup找到我们想要的标签

links = soup.find_all('h4', class_='blank')

这样就爬取到新闻列表的数据

3、接下来通过列表爬取到的url去获取详情的内容,方法同上面一样


直接贴源码:

#!/usr/bin/env python
# coding:utf8
import sys

import requests
from bs4 import BeautifulSoup

reload(sys)
sys.setdefaultencoding("utf8")

url = 'http://www.shjnet.cn/ms/msxw/index.html'


def getNewsList(url, page=0):
    if (page != 0):
        url = 'http://www.shjnet.cn/ms/msxw/index_%s.html' % page
    html = requests.get(url).content
    soup = BeautifulSoup(html, 'lxml')
    links = soup.find_all('h4', class_='blank')
    for link in links:
        detailUrl = "http://www.shjnet.cn/ms/msxw/" + link.a.get('href').replace('./', '')
        print "-------------------------"
        print "新闻标题:" + link.a.get_text() + "  详情地址:" + detailUrl
        getNewsDetail(detailUrl)
    page = int(page) + 1
    print soup.select('#pagenav_%s' % page)
    if (soup.select('#pagenav_%s' % page)):
        print u'开始抓取下一页'
        print 'the %s page' % page
        getNewsList(url, page)


def getNewsDetail(detailUrl):
    html = requests.get(detailUrl).content
    soup = BeautifulSoup(html, 'lxml')
    links = soup.find_all('div', class_='col-md-9')
    for link in links:
        # print link.span.get_text()
        # print link.h2.get_text()
        # print link.find('div', class_='cas_content').get_text()
        if (link.find('div', class_='col-md-10').select('img')):
            imgs = link.find('div', class_='col-md-10').find_all('img')
            for img in imgs:
                print "图片:" + detailUrl[:detailUrl.rfind('/')] + "/" + img.get('src').replace('./', '')


if __name__ == '__main__':
    getNewsList(url)

效果:


image.png
本文使用的python为2.7
爬取中遇见的问题
image.png
原因是需要添加http://开头
find_all("tag") 搜索当前所有的tag标签的集合。
find("tag") 返回的是一个tag标签。(这个方法用得少)
select("") 可以按标签名查找,用得多的是按标签逐层查找筛选元素。
获取 >内容< 内容使用.get_text()
获取<href 内容 > 内容使用.get('href')

目前暂时在控制台打印内容 ☺
上一篇下一篇

猜你喜欢

热点阅读