解密大数据

机器学习 | 一步一步跟我学Python(十)

2017-10-02  本文已影响96人  肚财神
  • 1.本系列基于新生大学课程《Python编程&数据科学入门》和公开的参考资料;
  • 2.文章例子基于python3.6,使用Windows系统(除了安装,其余基本没有影响);
  • 3.我是纯小白,所以,错误在所难免,体系会逐渐成熟;如果您发现了错误,也烦请帮我指出来,在此先谢过了。

这次课是最后一堂课,讲的是机器学习。

讲课的是吴博士,吴博士是北美世界100强的一名数据科学家,讲的内容也是自己工作中遇到的具体案例。

这节课的目的不是学会机器学习的代码,而是带领大家一窥机器学习的真实面目,打消对机器学习的盲目崇拜。所以,这堂课我也写不出代码来。只能把机器学习的真实含义讲出来,供大家参考。

数据分析师是怎样一个职业?

数据科学家或者说数据分析员,平时的主要工作是挖掘数据价值,为数据提供者提出优化战略,为内部商业伙伴提供咨询。他们每天的工作是把商业问题转化为定量分析问题,从统计分析以及机器学习中找到答案。

需要掌握的计算机技术包括:R/Python、SAS、Spark、SQL等等。

R语言、Python语言是非常棒的定量分析工具,只要精通一门,就能99%的问题。而python还能应用到其他领域。

在数据分析遇到的一个挑战有两个:

机器实际上就是算法,学习的过程就是构建模型的过程。

通过对大量数据进行窥探,从中找出规律,形成更好的决策,这中模式在北美已经越来越流行。这个趋势在世界其他地方会普及开来。

机器学习和大数据的关系

现在的大数据是一个热词。那么究竟大数据是什么呢?

吴博士的理解是:一台计算机无法出来的数据量,就是大数据。你必须依赖比如spark这样的算法来实现分析。

所以大数据也是一个不断发展的概念,以前的大数据,对我们来说可能就是一个小数据。

机器学习的两大任务:

从给定的训练数据中集中学习出一个函数,当新的数据到来时,预测结果。

监督学习最大的特征:有特征和目标。特征为输入,目标为输出。

比如:预测某个地区的房价;对区块链对冲价值的预测;预测信用卡违约的概率等等。

它没有目标。需要从输入中探索规律,得出结论。

比如:图片聚类分析,文章主题分类,搜索关键词给出网页,基因序列分析等等。

可以这样理解:不管监督学习还是无监督学习,都是有输出的。但监督学习输出的结果的可以通过测试集进行验证,它是客观的;而无监督学习,无法通过测试集进行验证,它得出的是一个主观的结果。

比如怎样把图片进行分类,以往的搜索是一个结果,换一种算法,可能得出另一种结果,这种结果不一定就不对。它的好坏需要使用者来具体体验才行。

案例分析:波士顿地区房价分析

这个案例是一个典型的监督学习的案例。

数据非常干净,共13个变量。而在实际中,收集数据是耗费时间最长的一个过程。在第8次课提到的分析过程中,前面三步可能一直在循环进行。

直到最后才会有干净的数据,而把商业问题转化为数据问题相对容易。而将机器学习的模型与实际数据进行拟合,这其实是最愉悦的过程。

下面是通过学习得到的碎片信息:

终于跟完了,下一步是把它们用起来。在实际运用的过程中,是一个更为艰难的过程。

祝你好运。

祝我好运。


知识本身不是力量,“知识+持续的行动”才是!

我是陶肚。如果喜欢,请帮忙点赞或分享出去。

上一篇 下一篇

猜你喜欢

热点阅读