集智俱乐部计算传播学

微博讨论和2019ncov疫情有多大关系?

2020-02-19  本文已影响0人  c0659eed21f5
import akshare as ak
import pylab as plt
import numpy as np

plt.style.use('fivethirtyeight')

epidemic_hist_all_df = ak.epidemic_hist_all()
df = ak.epidemic_163(indicator="历史")
df.head()

获取每日新增数量

alist = df['confirm'].tolist()
daily_conf = []
for k, i in enumerate(alist):
    if k == 0:
        daily_conf.append(i)
    if k > 0:
        daily_conf.append(i - alist[k-1])
df['confirm_daily'] = daily_conf  

获取微博指数数据

df_index = ak.weibo_index(word="疫情", time_type="3month")
df_index.head()

合并数据

dat = df_index.merge(df, how='inner', left_index = True, right_index = True )
dat.head()
plt.figure(figsize=(12, 6), dpi = 200)
plt.plot(dat.index, dat['confirm_daily'], label = '每日新增确诊数量')
plt.plot(dat.index, dat['疫情']/10000, label = '“疫情”微博指数/10000')
#plt.yscale('log')
plt.legend(fontsize = 20)
plt.show()
时间序列

画一下二者的散点图

plt.plot(dat['疫情'], dat['confirm_daily'], 'ro')
plt.xscale('log')
plt.yscale('log')
plt.xlabel('“疫情”微博指数/10000', fontsize = 20)
plt.ylabel('每日新增确诊数量', fontsize = 20)
plt.show()
scatter

算一下相关

np.corrcoef(dat['疫情'], dat['confirm_daily'])
# 0.2384777

思考 🤔

如果没有2月12日的数据剧增会怎样?

并未消退的疫情讨论
上一篇下一篇

猜你喜欢

热点阅读