day47 相关与相关系数
2018-07-19 本文已影响0人
泡面pm
day47 7月16日 星期一 阴
网易云音乐怎么知道我喜欢听什么音乐呢?
为什么京东淘宝在主页总展示我浏览过产品和他和品类?
今日头条知乎是怎么知道我喜欢看什么内容的?
bilibili,抖音为什么一看就是几个小时?
所有这些东西说复杂了就是协同过滤、内容关联、用户画像等各种算法,说简单了就是相关性分析。
一.为什么要知识相关性
如果掌握了因果规律,你就可以预测未来,你就可以掌握了一切。
可惜导致结果会有很多种原因,没有人可以掌握一切,但是我们结果的发生往往伴随着种种蛛丝马迹,我们可以凭着这蛛丝马迹一窥究竟,而这蛛丝马迹就是相关性。
二.什么是相关性?
相关性就是两个现象的相互关联的程度。如通常情况:
身体与体重呈正相关;
家教与富有成正相关;
熬夜与猝死呈正相关,
颜值与收入呈正相关,
养猫与抑郁呈负相关,
......
相关性有一个在统计学里有一个相关系数表示相关性,[-1,1],
[-1,0),代表负相关,越少越负相关
0,代表不相关
(0,1],代表正相关,越大越正相关
从以上可以看出,其实就是离中心0的距离。
理解计算公式后,可以用excel,SPSS,python等快速计算:
相关系数r xy协方差,cov(x,y)
x的标准差var(x) y的标准差var(y)
三.如何利用相关性
1.内容相关性推荐:物以类聚,如买了牙刷推荐牙膏,看了色戒推荐50度灰,看世界杯啤酒涨价。
2.人群相关性推荐:人以群分,天天9点以后下班,你是互联网屌丝,晚餐就给你推荐防脱发营养套餐。
3.协同过滤:你选择了wacom,估计你会画画圈的人,然后画画圈的人都喜欢相机,苹果,就向你推荐相机,苹果。你粉了吴亦凡,然后给你推荐吴亦凡圈子喜欢的电影,音乐,周边。
4....待续