小数据书房就是我的全世界读书笔记

复习一些数据名词(笔记)

2017-02-05  本文已影响77人  scvhuang

有时候莫名其妙的术语真是妨碍知识普及(比如naive哪里看出能翻译成朴素)。。。书本知识经常复习很有必要(而且应用场景会自己跳出来,把高深的词变得很接地气,也很有槽点)。

时间序列

一阶差分,就是把序列的两个紧邻数据的间隔作为一个新的序列,也就是把13579变成2222。

一阶差分可以把一部分非平稳序列转化到平稳序列,222还真是平稳多了。。。

这就是可以arima的时间序列,总觉得学到了假的。

聚类和离群

"相似"的计算方法是欧式距离或角度距离(余弦),对应前几天随笔写的极坐标也是坐标,所以角度距离和欧式距离完全是一个东西。

"密集"的计算方法是最近的若干个邻近点平均距离的倒数,或给定距离半径内邻近点的数量。基本还是距离。

数值规范(去量纲)

最简单的方法是减平均数(或中位数)再除标准差,思想和差分类似,作用就是把大家凑到差不多的范围。。。。

特征的提取

用白话就是把已经非常相关的多余内容合并,减少列数,压缩的思想(名叫降维,怕了吧,三体看过不)。顺便,小波略有不同,嗯研究一下再写。

上一篇 下一篇

猜你喜欢

热点阅读