数据科学,机器学习,数据挖掘的探讨
下面这个图片概括的说明了数据科学所关联的元素。
date_science_cn.png概述
数据科学的基础是数学和统计学,在研究和探索的过程当中我们需要有强大的计算机来为我们提供对数据处理的计算能力。研究之初我们需要使用科学的方法,应用数据工程学进行研究,研究过程当中可能会用到某个专业领域(医疗,空间探索等等)的专业知识相结合对数据进行分析研究,同是我们得有点黑客精神随时客服困难,最后将研究数据结果进行可视化展现出来。
我以为机器学习是重叠在数据科学当中的,因为机器学习依赖数学,统计学,科学的研究方法这三个项目。数据挖掘则是应用了整个数据科学的关联元素。
关于数学和统计学
虽然现在还没有深入了解数据科学,但是听说如果想了解机器学习的内容话,我们需要去学习很多数学和统计学的内容,比如多元微积分,统计与推理,线性代数,这些都是机器学习的先决条件。我本科数学的那些知识再加上未来一年的慢慢积累应该是可以补上这个坑的,实际上我都记不清自己是否上过统计学的课了,但是我仍然在某个书架上找到了统计学的书,十分枯燥。
计算能力
就贫民老百姓而言,计算能力几乎就限于手头的这台电脑了,但是如果有多台电脑倒是可以使用hadoop搭建一个分布式系统来进行运算能力的提升。或者有钱的话买几台云服务器也不错。
可视化
可视化实际上是数据科学当中比较重要的一个环节,这涉及到了洞察数据的问题,数据应该以更容易被人理解的形式展现出来,毕竟得到的数据结果如果没有办法进行展示和表述就没什么用了。
关于机器学习和数据挖掘
机器学习关注预测,我们让程序读取大量的数据进行训练,让程序学习已知的一些特性/知识,让程序可以预测未来可能发生的事情。
数据挖掘则关注发现,一般都是从一大堆数据当中发现我们未知的事物。
关于数据科学相关的人员
大部分时候,数据科学家或者数据程序员,都是在应用一些已知的数学或者统计学方法配合上计算机技术对数据进行处理和分析或者让程序获得学习能力。并不是任何时候都需要关注某个算法的实现原理,只要知道因果就可以应用了。当然如果知道这些算法的深层次原理更好,这都是自己个人的宝贵财富。