python 提升生活和办公效率

微信聊天记录统计

2019-11-24  本文已影响0人  alue

任务:获取自己和朋友A的全部微信聊天记录,并做简单的数据分析统计(如下图所示的一些数据)


根据聊天内容生成的词云
每个小时段的消息个数分布,可见夜里微信消息过多,熬夜的元凶找到了
每个月的消息个数

任务分析

整体任务分为两个大步骤,获取聊天记录和数据统计。数据统计比较容易,毕竟网上有很多教程可以借鉴。最麻烦的是第一步——获取聊天记录。

微信官方不提供聊天记录的文本导出方法。我们要想获取聊天记录,最直接的方法就是一条条复制到txt文档里,但这个方法太笨,不适合聊天记录特别多的情形。在网上一番检索,踩过一些坑后,终于成功导出。在这里把过程记录一下。

思路是这样的:手机端的微信会把消息记录存在一个数据库文件(EnMicroMsg.db)中。但这个文件加了密,需要密码才打得开。幸运的是,密码能够被计算出来。

密码的计算需要两个号码:一个是微信所用手机的串号IMEI(15-17位数字),另一个是微信的用户信息号(也就是uin,一般8-10位数字)。这两个号码按先IMEI后uin的顺序首尾拼在一起(中间不加任何字符)形成一个23~27位数字。对这长串数字做32位的MD5,得到的结果取前七位,就获得了数据库文件的密码。

注意:这里有个坑,网上都没有说,这七位中的大写字母一定要转化成小写字母才行!


获取微信聊天记录

从前面分析可知,要获取微信聊天记录,需要集齐三大法器: 数据库文件(EnMicroMsg.db)、手机IMEI和微信uin。但手机没有root的话,这三个法器也没法直接获取,只能借助手机模拟器才行。这里采用蓝叠模拟器来说明整个步骤。

  1. 借助PC微信客户端将聊天记录导入模拟器

    • 备份聊天记录到PC
      先打开PC微信客户端,将需要获取的聊天记录备份到PC上


      备份聊天记录至电脑
      备份聊天记录至电脑
    • 恢复聊天记录至模拟器的微信app
      打开蓝叠模拟器,安装微信app,然后登陆自己的账号,导入聊天记录,这样蓝叠就有了完整的聊天记录数据库文件


      导入聊天记录
  2. 打开模拟器root权限


    获取Root权限,这样才能获得上面三个信息
  1. 获取数据库文件EnMicroMsg.db
    • 打开文件管理器


      re.png
    • 数据库的文件路径


      数据库就在这个都是数字的文件夹里
      数据库文件
    • 复制数据库到自己的PC


      蓝叠模拟器中,将文件复制到sdcard下,然后点击上面的Export to Windows即可复制到自己的PC
  1. 获取模拟的串号IMEI
    网上很多方法都不靠谱,最简单有效的一招就是在模拟器上安装获取IMEI的app,打开这个app就能知道IMEI
  1. 获取uin
    在这个文件下,好多文件里都会有uin,例如下面这个文件,里面有个uin_id的8-10位数字,记录下来


    打开这个文件,能够找到uin
  1. 计算密码
    打开密码计算小工具,将IMEI和uin输入左侧方框,中间不要有任何字符,中间选择32位小,右侧得到结果的前七位就是密码

    md5一定要小写的才行
  2. 读取数据库的小工具
    有了数据库和密码,还需要安装一个读取数据库的工具——sqlcipher.

  3. 导出聊天记录
    用sqlcipher打开EnMicroMsg.db,会提示输入密码,然后就能看到数据库内容


    导出聊天记录
    表选择message
  4. 导入excel,导出xlsx
    上面生成的csv文件,如果直接用python读取的话,会有很多问题(可能是编码格式的问题),我是先用excel打开csv,另存为.xlsx文档,这样方便后面python读取


数据分析

这一部分就不多讲了,词云是借用了词云生成方法的代码。聊天时间分布统计利用了pandas库,这个我也是第一次用,拙劣的代码如下

import datetime
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker

excel_path = 'wx.xlsx' #上面第9步,生成的excel文件
dateparse = lambda x: datetime.datetime.fromtimestamp(int(x)/1000) if x else None # 导出来的时间戳比正常的多了3个0,这点要注意
df = pd.read_excel(excel_path, parse_dates=['createTime'], date_parser=dateparse)
fc = df['content'].groupby(df['createTime'].dt.hour).count() # hour 表明按照小时 统计聊天频率
fc.index = fc.index.astype('int') #将横坐标转化为整数型

############  绘图 ###################
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
plt.rcParams['font.size']=23
plt.figure(figsize=(20, 10))
ax = fc.plot(kind='bar',color='#66cccc')
ax.set_facecolor('#eeeeee')
ax.grid(True, linestyle='-.')
ax.tick_params(axis='x',labelcolor='#66cccc', labelsize='large', width=3)
ax.tick_params(axis='y',labelcolor='#66cccc', labelsize='large', width=3)
ax.set_xlabel(u"小时",color='#66cccc')
ax.set_ylabel(u"微信消息个数",color='#66cccc')
ax.set_title(u'微信聊天数据统计',color='#66cccc')
plt.show()

上一篇下一篇

猜你喜欢

热点阅读