程序员数据科学与R语言R语言小技能

大家在简书喜欢看什么

2018-11-30  本文已影响24人  Liam_ml

现代社会是一个娱乐至死的社会,媒体不再是传播价值,传播真理。变成了大家喜欢看什么,就给大家看什么。

今天用爬虫爬取了简书的推荐页面,想了解到大家喜欢看什么。

image.png

数据

image.png

一共爬取了7个字段。

  1. 文章标题
  2. 文章链接
  3. 摘要
  4. 评论数
  5. 点赞数
  6. 名字

爬取了105条数据

点赞数与评论数

image.png

可以发现,评论数和点赞数还是有比较强的线性关系的。

建立回归模型

l <- lm(meta1~meta,data = jianshutuijian)
summary(l)

Call:
lm(formula = meta1 ~ meta, data = jianshutuijian)

Coefficients:
(Intercept)         meta  
     37.395        1.678  

> summary(l)

Call:
lm(formula = meta1 ~ meta, data = jianshutuijian)

Residuals:
    Min      1Q  Median      3Q     Max 
-257.27  -44.03  -31.21   -5.43 1983.30 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  37.3954    25.2906   1.479    0.142    
meta          1.6781     0.4109   4.084 8.78e-05 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 223.2 on 103 degrees of freedom
Multiple R-squared:  0.1393,    Adjusted R-squared:  0.131 
F-statistic: 16.68 on 1 and 103 DF,  p-value: 8.781e-05
  

截距项不显著,剔除截距项目

l <- lm(meta1~-1+meta,data = jianshutuijian)
summary(l)

Call:
lm(formula = meta1 ~ -1 + meta, data = jianshutuijian)

Residuals:
    Min      1Q  Median      3Q     Max 
-297.71  -13.41    5.01   25.10 1985.49 

Coefficients:
     Estimate Std. Error t value Pr(>|t|)    
meta   1.9869     0.3559   5.583  1.9e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 224.4 on 104 degrees of freedom
Multiple R-squared:  0.2306,    Adjusted R-squared:  0.2232 
F-statistic: 31.17 on 1 and 104 DF,  p-value: 1.897e-07

从这个模型可以看出,可以看出一个评论差不多对应两个👍

看评论数与点赞数的分布

因为数据是非常明显的左偏,所以对数据去了一个对数。

image.png image.png

哪些文章受欢迎呢?

评论数或者点赞数大于总体80%的的那些人


image.png
  1. 两性 : 女性第一次多重要,男性第一次多重要;南京打小三,三观碎一地
  2. 秘籍: 各种偏门.....
  3. 名人 :为什么我不介意你读大冰的书;胡歌深夜发文....;
  4. 好奇心 :学校,也许不那么阳光;程序员租来了一个女实习生,男码农一句话....;
  5. 散文,小说,故事

所以说,知道写哪一类文章了吗?

上一篇下一篇

猜你喜欢

热点阅读