大家在简书喜欢看什么
2018-11-30 本文已影响24人
Liam_ml
现代社会是一个娱乐至死的社会,媒体不再是传播价值,传播真理。变成了大家喜欢看什么,就给大家看什么。
今天用爬虫爬取了简书的推荐页面,想了解到大家喜欢看什么。
image.png数据
image.png一共爬取了7个字段。
- 文章标题
- 文章链接
- 摘要
- 评论数
- 点赞数
- 名字
爬取了105条数据
点赞数与评论数
image.png可以发现,评论数和点赞数还是有比较强的线性关系的。
建立回归模型
l <- lm(meta1~meta,data = jianshutuijian)
summary(l)
Call:
lm(formula = meta1 ~ meta, data = jianshutuijian)
Coefficients:
(Intercept) meta
37.395 1.678
> summary(l)
Call:
lm(formula = meta1 ~ meta, data = jianshutuijian)
Residuals:
Min 1Q Median 3Q Max
-257.27 -44.03 -31.21 -5.43 1983.30
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 37.3954 25.2906 1.479 0.142
meta 1.6781 0.4109 4.084 8.78e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 223.2 on 103 degrees of freedom
Multiple R-squared: 0.1393, Adjusted R-squared: 0.131
F-statistic: 16.68 on 1 and 103 DF, p-value: 8.781e-05
截距项不显著,剔除截距项目
l <- lm(meta1~-1+meta,data = jianshutuijian)
summary(l)
Call:
lm(formula = meta1 ~ -1 + meta, data = jianshutuijian)
Residuals:
Min 1Q Median 3Q Max
-297.71 -13.41 5.01 25.10 1985.49
Coefficients:
Estimate Std. Error t value Pr(>|t|)
meta 1.9869 0.3559 5.583 1.9e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 224.4 on 104 degrees of freedom
Multiple R-squared: 0.2306, Adjusted R-squared: 0.2232
F-statistic: 31.17 on 1 and 104 DF, p-value: 1.897e-07
从这个模型可以看出,可以看出一个评论差不多对应两个👍
看评论数与点赞数的分布
因为数据是非常明显的左偏,所以对数据去了一个对数。
image.png image.png哪些文章受欢迎呢?
评论数或者点赞数大于总体80%的的那些人
image.png
- 两性 : 女性第一次多重要,男性第一次多重要;南京打小三,三观碎一地
- 秘籍: 各种偏门.....
- 名人 :为什么我不介意你读大冰的书;胡歌深夜发文....;
- 好奇心 :学校,也许不那么阳光;程序员租来了一个女实习生,男码农一句话....;
- 散文,小说,故事
所以说,知道写哪一类文章了吗?