python金融大数据挖掘与分析（四）——数据清洗及数据评分系统

2020-02-02 本文已影响0人 aidanmomo

@[toc]
从网络上获取数据之后需要对数据进行清洗优化，如去重、统一日期格式等等操作，今天主要记录和学习一下数据清洗优化的常规手段及数据乱码问题的处理

1. 数据去重及清洗优化

1.1 数据去重

前面的博文提到，将自动爬取的数据存入数据库，但是数据库并不能自动识别重复信息，所以24小时实时爬取的数据中难免会存在很多重复性数据，本节主要介绍针对重复数据的处理方法。

数据去重的思路：爬取到一条新闻的数据后，先查询数据库，如果发现该新闻的标题已经存在，就不把该新闻存入数据库。

sql = 'SELECT * FROM test WHERE company = %s'
cur.execute(sql, company)
data_all = self.cur.fetchall()
title_all = []  # 创建一个列表用来存储新闻标题
for i in data_all:
    title_all.append(i[1])

if title[i] not in title_all:
    # 执行插入到数据库操作。

1.2 日期格式统一

前面的博文中介绍到，我们已经使用如下方法对数据进行了初步处理：

strip（）函数：删除空格、换行符等非相关符号
split（）函数：提取文本中的日期信息
sub（）函数：替换文本内容。

下面，我们我要使用这些常用的数据处理方法对日期数据格式进行统一，改写为2020-01-01 18：12这样的格式。这里的处理方法是将2020年01月01日中的年月日改写为“-”，将58分钟前，5小时前这样的日期替换为今天的日期即可。

import time
    for i in range(len(date)):
        date[i] = date[i].split(' ')[0]      #处理带有具体时分秒的日期
        date[i] = re.sub('年', '-', date[i])
        date[i] = re.sub('月', '-', date[i])
        date[i] = re.sub('日', '', date[i])
        if ('小时' in date[i]) or ('分钟' in date[i]):
            date[i] = time.strftime("%Y-%m-%d")
        else:
            date[i] = date[i]

1.3 文本内容深度过滤——剔除噪声数据

我们爬取的数据取自网络，数据中难免会出现噪声数据，例如搜索一家公司，可能返回的搜索结果中包含同名或者相似名称的信息等，这些内容不是我们需要的，这时需要将这些数据剔除。这里主要使用两种方法：第一种是根据新闻标题进行简单过滤，另一种是根据新闻正文内容进行深度过滤。

根据新闻标题进行简单过滤

    for i in range(len(title)):
        if company not in title[i]:
            title[i] = ''
            href[i] = ''
            date[i] = ''
            source[i] = ''
    while '' in title:
        title.remove('')
    while '' in href:
        href.remove()
    while '' in date:
        date.remove()
    while '' in source:
        source.remove()

根据新闻正文内容进行深度过滤
我们可以通过如下方式获取新闻的正文内容

article = requests.get(href[i]).text

配合新闻标题的过滤方法，可以实现根据新闻正文的过滤方法。

# 根据新闻正文内容进行深度过滤
for i in range(len(title)):
    try:
        article = requests.get(href[i]).text
    except:
        article = '爬取失败'
    if company not in article:
        title[i] = ''
        href[i] = ''
        date[i] = ''
        source[i] = ''
while '' in title:
    title.remove('')
while '' in href:
    href.remove()
while '' in date:
    date.remove()
while '' in source:
    source.remove()

经过上面的代码执行，已基本能够实现根据正文内容的深度过滤，但是还要可以改进的地方，例如‘华能信托’公司，也叫作‘华能贵诚信托’公司，通过上面的代码，可能会把其中一种命名方式忽略掉，因此，这里可以采用正则化的方式对代码进行改进。
将原来的判断条件代码if company not in article:替换为

company_pattern = company[0] + '.{0,5}' + company[-1]
if len(re.findall(company_pattern, article)) < 1:

应对不同的问题，可以通过改写正则化匹配规则来解决。

2. 数据乱码的处理

有些网页的源代码爬取出来会出现中文乱码，例如我们在爬取百度首页www.baidu.com时，如果不加header参数，爬取到的中文则是乱码显示，这时因为python获得的网页源代码的编码方式和网页实际的编码方式不一致，从而导致其中的中文呈现为乱码。此时需要对编码进行分析，并重新编码和解码，以获取正确的内容。

2.1 编码分析

分别比较获取python获得的网页源代码的编码方式和网页实际的编码方式，比较两者是否相同。

首先获取python获得的网页源代码的编码方式

import requests
url = 'https://www.baidu.com'
code = requests.get(url).encoding
print(code)

结果为：

ISO-8859-1

获取网页实际的编码方式
在百度网页，F12打开开发者模式，展开最上方的<head>标签，其中<meta>标签里的charset参数存储的便是网页实际的编码方式。

在这里插入图片描述

2.2 重新编码及解码

为了解决python获取的网页源码中出现中文乱码的问题，需要通过重新编码及解码的方式来解决。

编码：把文本字符串转换为二进制字符（由英文字母和数字组成的原始字符）
解码：把二进制字符转换为文本字符串
通过重新编码和解码的方式可以解决乱码的问题，代码如下

res = requests.get(url).text
res = res.encode('ISO-8859-1').decode('utf-8')

上述代码首先通过encode()函数进行编码，将获取的ISO-8859-1的中文内容转换为二进制字符，然后通过decode()函数，将二进制字符转换为网页实际的编码方式utf-8。

通过更改编码方式的问题可以不加header参数解决中文乱码的问题，但是该方法并不能适用于所有网页，毕竟不同网页可能使用不同的编码方式，例如gbk编码也是支持中文的。

3. 舆情数据评分系统搭建

有时除了新闻、网址、日期、来源等，还需要挖掘一些其他内容。本章内容主要完成舆情数据评分系统的搭建，由易到难，逐步完善。

3.1 根据标题和正文评分

评分方式：根据新闻标题或者正文中是否出现特定的负面词来给新闻打分

    score = []
    keywords = ['风险', '违约', '诉讼', '兑付', '减持']  # 可自行设定
    for i in range(len(title)):
        num = 0
        # 爬取正文
        try:
            article = requests.get(href[i], headers=headers, timeout=10).text
        except:
            print('单个新闻爬取失败')
            
        for k in keywords:
            if (k in article) or (k in title[i]):
                num -= 5
        score.append(num)

3.2 处理非相关信息

通过上面的方式，我们获取的是网页中的全部源代码，但是打开一个网页我们会发现，网页中除了新闻正文内容外，还有诸如新闻推荐，热门排行，相关新闻等板块内容，这些内容可能会导致一些正面新闻被误伤。
为了解决该问题，我们需要对网页源码结果进行分析，大部分网页的正文内容都包含在<p></p>，而其他内容则不是（不完全），因此我们可以通过正则匹配的方式提取到<p></p>之间的内容。

    score = []
    keywords = ['风险', '违约', '诉讼', '兑付', '减持']  # 可自行设定
    for i in range(len(title)):
        num = 0
        # 爬取正文
        try:
            article = requests.get(href[i], headers=headers, timeout=10).text
        except:
            print('单个新闻爬取失败')
            
        # 删除网页中的无关内容
        article_pattern = '<p>(.*?)</p>'
        article_main = re.findall(article_pattern, article)
        article = ''.join(article_main)     #将article_main列表中的内容连接成一个字符串
        
        for k in keywords:
            if (k in article) or (k in title[i]):
                num -= 5
        score.append(num)

将前面所有的模块整合到一起，我们就能获得一个比较基本的新闻舆情评分系统，其中包括了网页新闻爬取模块，数据初步清洗模块，舆情评分模块，数据二次深度清洗模块，数据去重以及数据存储模块。

通过该系统，我们能够获得目标公司的每日评分，之后，可以对数据进行一些深度分析，查看舆情数据评分是否和上市公司的股价变化具有一定的相关性。