数据蛙数据分析每周作业数据分析

虎嗅文章分析(二)

2018-12-28  本文已影响6人  晓迦

前言

在上一篇文章《虎嗅文章分析(一)》中,主要对文章收藏量、评论量和文章标题长度之间的关系进行了探究,此篇文章接着上篇文章进行探究。

盘点最值得关注的虎嗅作家TOP10

找出平均收藏量最多并且发文数量在5篇及以上的的10位作家。

def analysis(data):
    data = pd.pivot_table(data,values=['favorites'],index='name',aggfunc=[np.sum,np.size])
    data['avg'] = data[('sum','favorites')]/data[('size','favorites')]
    data['avg'] = data['avg'].astype('int')
    data.columns = data.columns.get_level_values(0)
    data.columns = ['total_favorites','article_num','avg_favorites']
    data = data.query('article_num>4')
    data = data.sort_values(by=['avg_favorites'],ascending = False)
    print(data[:10])
analysis(data)
最值得关注的虎嗅作家TOP10.PNG

文章标题形式

探究文章标题中带问号以及带叹号的占比。

data1 = data[data['title'].str.contains("(.*\?.*)|(.*\?.*)")]
data2 = data[data['title'].str.contains("(.*\!.*)|(.*\!.*)")]
quantity = data.shape[0] - data1.shape[0] - data2.shape[0]

size = [data1.shape[0],data2.shape[0],quantity]
labels = [u'问号标题',u'叹号标题',u'陈诉性标题']
colors_pie = ['#1362A3','#3297EA','#8EC6F5']
explode = [0.05,0,0] #突出显示问号部分
plt.pie(size,labels=labels,colors = colors_pie,explode = explode,startangle=270,autopct='%1.f%%',textprops={'fontsize' : 12,'color':'b'})
plt.axis('equal')
文章标题形式.png

每周发文情况分析

data_1 = data[data['name']!='虎嗅']
data_1['weekday'] = data['write_time'].dt.weekday.apply(lambda x:x+1)
data_1.groupby('weekday')['title'].count().plot(kind = 'bar')
每周发文数量.png

从图上可以看出:星期六和星期天虎嗅网上发表文章篇数较少,推断:在虎嗅网上发表文章的作家有很多都是一些平台的签约作家。

每周收藏量分析

a = data.groupby('weekday')['favorites'].sum()/(data.groupby('weekday')['title'].count())
a.plot(kind = 'bar')
一周中平均文章收藏量.png

星期六星期天的文章平均收藏量较高,可以推测出双休日虎嗅网的浏览量也应该是最多的。

文章标题词云分析

from scipy.misc import imread
def wordcloud(data):
    text = ''
    for line in data['title']:
        patterm = '(\[.*]|.*:|\【.*】|\《.*》)'
        line = re.sub(patterm,'',line)
        text += ' '.join(jieba.cut(line))
    stopwords = set()
    stopwords.update(['如何','怎么','一个','什么','为什么','还是','我们','为何','可能','不是','没有','哪些','成为','\
                      可以','背后','到底','就是','这么','不要','怎样','为了','能否','你们','还有','这样','这个','真的','那些'])
    mask = imread('G:/huxiu_data/tiger1.jpg')
    cloud = WordCloud(background_color = 'white',font_path='./fonts/simhei.ttf',max_words = 100,mask = mask,max_font_size = 100,
                     margin = 2,scale = 2,stopwords=stopwords)
    cloud.generate(text)
    plt.imshow(cloud)
    plt.axis=("off")
    
wordcloud(data)
文章标题词云.PNG

从词云图中可以发现:
*虎嗅网上的文章主要集中在中国互联网公司,主要的关键字包括:互联网、阿里、腾讯、微信、百度、电商、苹果、小米等等。

2013年到2018年互联网行业情况

分析2013年到2018年6年间虎嗅网文章标题看互联网发展趋势。


从2013年到2018年情况.jpg
上一篇下一篇

猜你喜欢

热点阅读