大家在简书喜欢看什么

2018-11-30 本文已影响24人 Liam_ml

现代社会是一个娱乐至死的社会，媒体不再是传播价值，传播真理。变成了大家喜欢看什么，就给大家看什么。

今天用爬虫爬取了简书的推荐页面，想了解到大家喜欢看什么。

image.png

数据

image.png

一共爬取了7个字段。

文章标题
文章链接
摘要
评论数
点赞数
名字

爬取了105条数据

点赞数与评论数

image.png

可以发现，评论数和点赞数还是有比较强的线性关系的。

建立回归模型

l <- lm(meta1~meta,data = jianshutuijian)
summary(l)

Call:
lm(formula = meta1 ~ meta, data = jianshutuijian)

Coefficients:
(Intercept)         meta  
     37.395        1.678  

> summary(l)

Call:
lm(formula = meta1 ~ meta, data = jianshutuijian)

Residuals:
    Min      1Q  Median      3Q     Max 
-257.27  -44.03  -31.21   -5.43 1983.30 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  37.3954    25.2906   1.479    0.142    
meta          1.6781     0.4109   4.084 8.78e-05 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 223.2 on 103 degrees of freedom
Multiple R-squared:  0.1393,    Adjusted R-squared:  0.131 
F-statistic: 16.68 on 1 and 103 DF,  p-value: 8.781e-05

截距项不显著，剔除截距项目

l <- lm(meta1~-1+meta,data = jianshutuijian)
summary(l)

Call:
lm(formula = meta1 ~ -1 + meta, data = jianshutuijian)

Residuals:
    Min      1Q  Median      3Q     Max 
-297.71  -13.41    5.01   25.10 1985.49 

Coefficients:
     Estimate Std. Error t value Pr(>|t|)    
meta   1.9869     0.3559   5.583  1.9e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 224.4 on 104 degrees of freedom
Multiple R-squared:  0.2306,    Adjusted R-squared:  0.2232 
F-statistic: 31.17 on 1 and 104 DF,  p-value: 1.897e-07

从这个模型可以看出，可以看出一个评论差不多对应两个👍