呆鸟的Python数据分析呆鸟译Pynumpy杂

【呆鸟译Py】数据分析师进阶必备6大数学利器

2018-10-19  本文已影响9人  呆鸟的简书
Photo by Roman Mager on Unsplash

原文链接:www.kdnuggets.com
原文作者: Tirthajyoti Sarkar

呆鸟说:“数学,让我头痛,翻译本文让我头疼欲裂。不过,数据分析师不懂点数学,也实在说不过去,所以就有了这篇文章。”

介绍

数学是现代科学的基石,几乎所有现代科学都与数学密不可分,尤其是数据科学与机器学习。

要想成为资深数据分析师,必须具备一定的数学知识,熟练应用数学技巧,才能更好地使用程序自带的算法。比如说,理解了算法背后的数学知识,能更好地理解用户推荐系统的机制。

总之,学好数学对数据分析师来说,有百利而无一害,既可以让你在工作中脱颖而出,还可以让你更加自信。相信我,了解算法背后的运行机制,比那些只会使用工具的同行会有更多优势。

毋庸置疑,成为顶级数据分析师并不容易,高超的编程技能、精明的商业头脑、对数据的独特见解,以及强烈的好奇心,这些一样都不可少。 而本文要告诉你的是,想要成为优秀数据分析师要掌握哪些必要的数学知识。

新手入门

计算机硬件、商务零售、医疗保健、商业管理等领域浸淫已久的专业人士想转行数据分析这一领域,首先要掌握一些必要的数学知识。

虽然,有人可能会觉得之前的工作已经处理过大量的数据报表、完成了大量的数据计算和趋势预测工作,但数据分析工作所需的数学技能和这些数字工作的区别其实很大。

为什么数学如此重要 - 因为数据科学是科学,而不只是数据

网络工程师也好,商业分析师也罢,即便每天处理很多数据,但他们的工作重点并不是数据建模。因为时间压力,往往只是“用数据完成手头上的工作,赶紧过关了事”,而不是深入研究数据,探索数据的内在关系。不管怎样, 数据科学是科学,而不只是数据。那么数学能力都有哪些呢?可以参考如下几点:

这些都是为了培养对理解枯燥的数字、抽象的数学实体及其性质和关系的能力,在大学四年的数学课程中即可学到,并且,不必非得从顶级大学中以优异的成绩毕业才能获得这些数学能力。

况且,我要说的还不是大一学的微积分,而是一些简单的东西,比如数字2,请看下面这个场景…

一大早,刚到办公室,正准备开始一天的工作,着手编制复杂的商业图表。领导突然给你布置了一项极具挑战的任务 --- “2分钟内证明2的平方根不是有理数。”

啥……,您刚才说什么有理

瞧,不懂点数学,直接就懵逼了……

打断一下,告诉我怎么干能成功就可以了

这正是我想说的,想学好数据分析没有一定之规。数据分析,从根本上来说,是一种职能,而非行业领域,数据分析可以处理癌症诊断,社交行为分析等各类现象。由此产生的交叉可能性包括多维数组数学对象、统计分布、优化客观函数等等等等……

打住,您先歇会儿……

这都说的是什么东西啊?真的假的?

怎么说呢,要想玩转数据分析,下面这些内容可要费点心思好好研究一下。

一、函数、变量、方程、图

函数、变量、方程、图

学什么

从最简单的学起,比如线性方程、二项式定理及其性质。

怎么用

要理解百万量级数据排序后再搜索会快多少,首先要理解什么是二分法搜索,要理解二分法搜索,就要懂得什么是对数,什么是递归方程式。还有,如果想分析时间序列,就要了解周期函数指数衰减的概念。

在哪儿学

二、统计学

统计学

学什么

统计学可是数据分析师的必备技能。想做数据分析必须要有坚实的统计学与概率论基础,这点就不用多说了。除了新出现的神经网络机器学习,传统的机器学习其实就是统计学习,比如李航的统计学习方法讲的就是机器学习原理。统计学的内容非常广泛,我们只要关注最核心的概念就可以了。

怎么用

面试的时候就会用得上,相信我,作为准数据科学家,如果把统计学的概念搞得清清楚楚、明明白白,一定能让面试官刮目相看。当上了数据科学家,统计学更是常用的工具。

在哪儿学

三、线性代数

线性代数

学什么

Facebook上的朋友推荐、Spotify上的歌曲推荐,通过深度学习把自拍照片转换为萨尔瓦多·达利风格的人像画,试问这些操作的共同点是什么?其实就是它们都离不开矩阵和矩阵代数的知识。

线性代数这一重要的数学分支,研究的是机器学习算法如何从数据流中获取有价值信息。下列是必学的线性代数知识:

怎么用

使用降维技术实现主成分分析时,要用奇异值分解来缩减维度,让数据集参数变得更少。所有神经网络算法都使用线性代数处理网络结构和学习操作。

在哪儿学

四、微积分

微积分

学什么

在上大学的时候,微积分是最让人头疼的课程,不过,在数据科学和机器学习领域里,微积分可是无处不在,最简单的普通最小二乘法问题的分析解决方案离不开微积分,神经网络中用于学习新模式的反向传播里也少不了微积分。可以说,微积分是你的技能库里最有价(zhi)值(qian)的技能。下列是要掌握的微积分知识点:

怎么用

理解逻辑回归算法需要微积分的知识,比如怎样通过“梯度下降”找到最小损失函数。 要了解梯度下降的机制,就会用到微积分的概念 - 梯度、导数、极限和链式法则。

在哪儿学

五、离散数学

离散数学

学什么

探讨数据科学的数学知识时,很少会谈及离散数学这个话题,但几乎所有现代数据科学都需要计算系统的支持,而这些系统的核心恰恰是离散数学。大一学生在学习离散数学时会被告知:初学者一定要掌握日常分析项目使用的算法和数据结构。离散数学核心知识点如下:

怎么用

对于任何社交网络分析,都需要理解图形性质与快速算法来查找和遍历网络。不管选择哪种算法都要理解算法的时空复杂性,比如随着输入数据大小的变化,运算所需的时空需求如何变化,这时通常会用到大O符号法。

在哪儿学

六、最优化、运筹学

最优化、运筹学

学什么

这一部分主题说得都是与应用数学相关的知识,最常用的是计算机科学原理、控制论、运筹学等。理解这些概念对机器学习实践来说非常重要。实际上,每种机器学习算法都要在限制条件下实现误差估计最小化,这就是优化。 要学习的内容如下:

怎么用

用最小二乘法损失函数解决简单线性回归问题一般能得到较为精确的分析解,但在解决逻辑回归问题时就不行了。要想理解其中的原因,就要理解最优化里的凸性概念。这个概念还告诉我们,在绝大多数机器学习问题里要能够接受近似解,这是个毋庸置疑的事实。

在哪儿学

相关文献

  1. 15门数据科学的数学课 - 慕课
  2. 如何学习数据科学中的数学
  3. 数据分析师简历里要有多少数学与统计学内容?
  4. 入门数据科学与机器学习必学的19门数学与统计学慕课课程
  5. 学习机器学习中的数学

结语

即使数学不好也不用过于担心,更不用迷茫无助。想成为资深数据分析师要学的东西很多,如果平时不怎么应用数学知识,就更要下些工夫。但是,如今这个时代最好的地方就是网上有超多优秀的资源,比如各类视频教程。只要花些时间,投入精力,就可以找到适合自己的学习资源。

我可以保证,即便在大学学过这些内容,现在重温或学习新的数学知识以后,你会发现这些时间与精力没有白费,一定能一点一点地开始理解数据分析与机器学习项目背后所隐藏的旋律。这就是进阶成为数据科学家所要迈出的一大步。

如有任何问题或想法,请联系作者 Tirthajyoti. 也可以去看看他的 GitHub项目 ,查看更多 Python、R 与 MATLAB 代码及机器学习资源。如果喜欢数据科学与机器学习,也可以添加作者为领英好友或在 Twitter上加关注。

作者简介: Tirthajyoti Sarkar ,半导体专家、电子信息工程博士、专业博主、科技作家、机器学习和数据科学的忠粉。

Tirthajyoti Sarkar

译注:因为数学不好,虽然查证了一些数学书籍,也咨询了学数学与统计的朋友,但毕竟内容较多,难免有所疏漏,如有读者发现错误,请留言告知,避免误人子弟,多谢多谢!

另,翻译不易,四处求证、三天翻译、两天校对,只求一秒点赞,如觉有用,还望转发:)

感谢天善智能Python爱好者社区公众号一直以来对我的支持,敬请关注!

Python爱好者社区

​也欢迎大家关注我的微信公众号 呆鸟的Python数据分析
【dainiao_PyDA】

呆鸟的Python数据分析
上一篇下一篇

猜你喜欢

热点阅读