微博讨论和2019ncov疫情有多大关系?
2020-02-19 本文已影响0人
c0659eed21f5
import akshare as ak
import pylab as plt
import numpy as np
plt.style.use('fivethirtyeight')
epidemic_hist_all_df = ak.epidemic_hist_all()
df = ak.epidemic_163(indicator="历史")
df.head()
获取每日新增数量
alist = df['confirm'].tolist()
daily_conf = []
for k, i in enumerate(alist):
if k == 0:
daily_conf.append(i)
if k > 0:
daily_conf.append(i - alist[k-1])
df['confirm_daily'] = daily_conf
获取微博指数数据
df_index = ak.weibo_index(word="疫情", time_type="3month")
df_index.head()
合并数据
dat = df_index.merge(df, how='inner', left_index = True, right_index = True )
dat.head()
plt.figure(figsize=(12, 6), dpi = 200)
plt.plot(dat.index, dat['confirm_daily'], label = '每日新增确诊数量')
plt.plot(dat.index, dat['疫情']/10000, label = '“疫情”微博指数/10000')
#plt.yscale('log')
plt.legend(fontsize = 20)
plt.show()
时间序列
画一下二者的散点图
plt.plot(dat['疫情'], dat['confirm_daily'], 'ro')
plt.xscale('log')
plt.yscale('log')
plt.xlabel('“疫情”微博指数/10000', fontsize = 20)
plt.ylabel('每日新增确诊数量', fontsize = 20)
plt.show()
scatter
算一下相关
np.corrcoef(dat['疫情'], dat['confirm_daily'])
# 0.2384777
思考 🤔
如果没有2月12日的数据剧增会怎样?
并未消退的疫情讨论