数据分析岗位漫谈

2020-01-09 本文已影响0人爱因斯没有坦

2019年毕业大军达到900万人，校招，春招是国内，国外，应届生的战场，随着就业形势一年比一年严峻，越来越多的岗位对应聘者提出了多元化需求，其中被众多求职者诟病的即是“数据分析岗位”，在如今在大数据时代，凡是和数据沾一点边的人都想应聘这个岗位，它不下雨算法，机器学习岗位的聪明的大脑，但也是分析岗位，这也造成了这个岗位在不同公司需求也不同，并且随着算法的普及，机器学习也成为了数据分析岗位的求职点。接下来我们将主要分析医学数据分析岗位需求，招聘的人才要求，求职者画像，如何准备等

1.数据分析岗位需求

1.1宏观环境（PEST)

从政治来看：全球统一化，国际贸易等各个方面越来越需要数据分析的业务

从经济来看，目前倡导精准营销，精准用户，精准医学，在很多行业和公司都希望使用数据直接定位目标用户，而数据分析提供了这样的契机

从文化来看，数据分析可以直观展现数据本身，符合大众期待，相比较算法来说具有更明确的解释性

从技术来看，在互联网环境下，技术更新日新月异，数据分析行业要学习的知识也增加许多，技术指标体系都已建立，发展良好。

1.2 市场规模需求不同，

根据国内2018年岗位研究报告，数据分析人才仍高居前几位。不同地区需求不同，其中以北上广深需求最大，二三线城市次之。

1.3 竞争岗位情况分析

数据分析岗位是比较玄学的岗位， 1方面是要能力范围广，包括业务，逻辑，技术等，另外一方面是转行人员多。

数据分析岗位细分

1--业务类的数据分析

2--商业类的数据分析

3-偏机器学习的数据分析

数据分析岗位薪资

互联网最高，其次

数据分析--发展方向

1，产品经理 2.结合行业成为高级数据分析师

求职者画像

学校：偏爱985，211，双一流

专业：数学，统计，计算机，电子类，和数据接触的岗位都可以，

实习：最好有，，没有的话有笔试

笔试：包括行测，机器学习，主观题，可能会有编程题

需要掌握的技能：

业务类

Excel +SQL+ 统计学+概率论+业务理解+逻辑能力

机器学习类

Excel+SQL+ML+统计学+概率论+业务

2019数据分析工程师笔试

单选题（20道题，40分）

bootstrap 是什么原理—有放回的从N个样本中抽样n个

bootstrap方法是从大小为n的原始训练数据集中随机选择n个样本点组成一个新的训练集，这个选择过程独立重复B次，然后用这B个数据集对模型统计量进行估计（如均值、方差等）。由于原始数据集的大小就是n，所以这B个新的训练集中不可避免的会存在重复的样本。

统计量的估计值定义为独立的B个训练集上的估计值的平均：

区分bootstrap、bagging、boosting和adaboost

https://blog.csdn.net/wangjian1204/article/details/50668929

bootstrap、bagging、boosting和adaboost是机器学习中几种常用的重采样方法。其中bootstrap重采样方法主要用于统计量的估计，bagging、boosting 和 adaboost方法则主要用于多个子分类器的组合。

Bootstrap 是对统计量的估计，有放回的从N个样本中抽样n个样本，独立重复B次，然后用这B 个数据集对模型统计量进行估计（如均值，方差），这个Ｂ个样本中必然会存在重复样本

Bagging (Bootstrap Aggregating)，第一步采样就是使用Bootstrap Sample （Bagging是对训练样本采样）　方法是从大小为n的原始训练数据集D中随机选择n′(n′

boosting依次训练k个子分类器，最终的分类结果由这些子分类器投票决定。首先从大小为n的原始训练数据集中随机选取n1n1个样本训练出第一个分类器，记为C1C1，然后构造第二个分类器C2C2的训练集D2D2，要求：D2D2中一半样本能被C1C1正确分类，而另一半样本被C1C1错分。接着继续构造第三个分类器C3C3的训练集D3D3，要求：C1C1、C2C2对D3D3中样本的分类结果不同。剩余的子分类器按照类似的思路进行训练。（只是改变了数据分布）

Random Forest，结合了Bagging和Feature Selection方法，当然也使用林Bootstrap Sample方法（不仅仅对训练样本采样，还对Feature采样）

https://www.jianshu.com/p/708dff71df3a

用户消费表中时间格式是“年－月－日－时－分－秒”，在MySQL中获取“年-月-日”的函数是（A）

A DATE --返回日期

B GETDATE —返回日期和时间

C DAY（）–1、day(date_expression) 返回date_expression中的日期值

D GETDAY()—无此函数

假设使用较短的时间在一个足够大的数据集上训练决策树，可以采用什么办法（C）

A 增加树的深度

B 增加学习率

C减少树的深度

D 减少树的数量

解析：增加树的深度, 会导致所有节点不断分裂, 直到叶子节点是纯的为止. 所以, 增加深度, 会延长训练时间.决策树没有学习率参数可以调. (不像集成学习和其它有步长的学习方法)决策树只有一棵树, 不是随机森林。

需要删除表user的数据，但是保留表结构且不释放空间，以下哪个语句可以实现（）

A DELETE TABLE user

B REMOVE TABLE user

C DROP TABLE user

D TRUNCATE TABLE user

在SQL中，能快速删除数据表中所有记录，但保留数据表结构的语句是Truncate。

使用Truncate删除所有行,该语句总是比不带条件的DELETE语句要快，因为DELETE语句要记录对每行的删除操作，而Truncate 语句只记录整个数据页的释放。Truncate语句立即释放由该表的数据和索引占用的所有空间,所有索引的分发页也将释放。

Delete 删除表中的行

DROP删除整个表，包括表结构和表定义

REMOVE没有这个查询定义

某抽卡公司出示出SSR的概率是0.1，用户画符500次，得到45个符，问在5%的显著水平下，能够认为游戏商在谎报概率吗？（）

A 能

B不能

C 不确定

D 就算画符5000次，得到450个符，也不能

对于统计检验来说，这里设置的是a=0.05, Ho 假设如果计算的概率p>a大于显著水平，即是没有足够的证据去拒绝原假设，即尚不能拒绝H0, 如果p<a,即可以拒绝原假设H0

某服务器请求分配到集群A,B, C, D 进行处理响应的概率分别是10%，20%，30%，和40%，测试各集群的稳定性分别是90%， 93%，99%，和99.9%，现在该服务器请求处理失败，且已排除稳定性以外的问题，那么最有可能在处理该服务集群的是（B）

A 集群A、

B 集群B

C 集群C

D 集群D

令L代表服务器请求处理失败，A,B,C,D分别代表对应的集群处理响应。

则有P(A)=10%,P(B)=20%,P©=30%,P(D)=40%

P(L|A)=10%,P(L|B)=7%,P(L|C)=1%,P(L|D)=0.1%

题目要求P（X|L），知识点：全概率公式、贝叶斯公式；对于4个集群而言，分母P(失败)是恒定的，因此只需比较分子P(失败|集群=i)*P(集群=i)的大小。

X可取A,B,C,D,求其中的最大值。

根据贝叶斯概率公式

P(A|L)P(L)=P(L|A)P(A)=10% * 10%=0.01

P(B|L)P(L)=P(L|B)P(B)=20% *7%=0.014

P(C|L)P(L)=P(L|C)P©=0.003

P(D|L)P(L)=P(L|D)P(D)=0.0004

其中，P(L)虽然未知，但不用计算，即可比较大小，得P(B|L)最大

所以选B

关于大数定理和中心极限定理说法错误的是（B）

A 大数定理和中心极限定理都是用来描述独立同分布的随机变量的和的渐进表现

B 它们描述的是在不同收敛速率之下的表现，大数定理的前提条件强一点

C 利用大数定理可以用样本均值估计总体分布的均值

D 中心极限定理描述的是某种形式的随机变量之和的分布

http://www.360doc.com/content/17/0207/09/9200790_627187280.shtml

大数定理说的是随机现象平均结果的稳定性

中心极限定理论证随机变量的极限分布是正态分布

大数定理比中心极限定理宽松，中心极限条件强，结论更强

关于MySQL中数据类型的描述，以下错误的是（C）

A VARCHAR 用于描述可变长度的非二进制字符串

B DATETIME 和TIMESTAMP 是相同的数据类型，可以相互替换 √

C 以“hh:mm:ss”格式存储时间值的是DATETIME 数据类型 ×是TIME

D TINYINT属性只适合数字类型的数据

以下哪些机器学习模型没有用到learning rate 学习率作为超参数（）

A 随机森林

B Adaboost

C Gradient Boosting

D lightGBM

决策树没有参数可以调节

只要使用了梯度下降法就会有学习率

游戏中的武器攻击值是60，使用宝石可以增加攻击值，如果是A有40%的概率打出暴击，攻击值增加一倍，是宝石B的话有20%的概率打出暴击，攻击值增加三倍，如果是C的话10% 攻击值增加5倍，各个事件均为独立事件，但是多个暴击同时发生时，支取最高值，这个数学期望是多少（）–？？

A 129.38

B139.68

C152.18

D 145.98

40% 20% 10% 30%

120 240 360

E(x)= 1200.4+ 2400.2+360*0.1==

对于二分类问题中样本不平衡问题（负例较多），下面那个解决方案不适用（C））

A 对训练集的负样本进行欠采样

B 直接基于原始数据集进行训练在预测的时候改变阈值

C 对训练集的正负比例进行升采样

D 对正例进行升采样

过抽样:过抽样也叫做上采样(over-sampling).这种方法通过增加分类中少数样本的数量来实现样本均衡。最直接的方法是简单复制少数样本形成多条记录。比如正负比例为1:10，那么我们可以将正例复制9遍来达到正负比例1:1。但是这种方法的缺点就是如果样本特征少而可能导致过拟合的问题；经过改进的过抽样方法通过在少数类中加入随机噪声、干扰数据或通过一定规则产生新的合成样本，例如SMOTE算法。

2，欠抽样:欠抽样也叫做下采样(under-sampling)，这种方法通过减少分类中多数分类的样本数量来实现样本均衡，最直接的方法就是随机的去掉一些多数类样本来减小多数类的规模，缺点是会丢失多数类样本中的一些重要信息。

总而言之，过抽样和欠抽样更适合于大数据分布不均衡的情况，尤其是第一种(过抽样)应用更加广泛。

过采样（英语：Oversampling）是指以远远高于信号带宽两倍或其最高频率对其进行采样的过程。

2，通过正负样本的惩罚权重解决样本不均衡。

3，通过组合集成方法解决样本不均衡。

4，通过特征选择解决样本不均衡

SQL 中语句正确的执行顺序是

From—where—group by —having –select----order by –limit

RNN 在特定的神经元给定任意输入，得到的输出是-0.001. 那么RNN中隐藏层使用的激活函数可能是（）

A ReLu（0，x）

B Tanh （-1,1）

C Sigmoid–（0，1）

D 其他都不是

？？？？

在含有一个或者两个均值的假设检验中要使用（）？？？不确定

A 卡方检验

B t 变量

C F变量

D z 变量

下面说法错误的是（）

A 零假设提出一个参数是否等于某个特殊值的问题

B p值越小，拒绝零假设的理由就越充分

C p 值和零假设的对错的概率有关

D p值描述的是在总体的许多样本中，某一类数据出现的经常程度

C？？？？

16.贝叶斯分类利用以下哪种概率计算（后验概率）

利用先验概率计算后概率应该是先验概率

One vs rest 分类法对于n 个类别的分类任务，需要训练多少模型—n

现在需要查询包括‘_’的数据，以下SQL 不能实现的是：

从表中执行的操作

不可以的是修改主键，以及插入一个和主键学号一样的信息

多选题（10道，30分）

假如出现以下哪种情况，可以表明训练RNN模型过程中出现了梯度爆炸？

A 梯度模型快速变大

B 模型权重为NAN

C 每个节点和层的误差梯度值持续超过1.0

D 损失函数持续减少

E梯度模型以指数形式衰减

关于SQL 的优化，以下说法正确的是（）

A select 子句中尽量避免使用 *，尽量列出需要查询的字段

B 大小表连接是，把大表写入内存，再拼接小表

C KEY键NULL值较多时，把 NULL赋值为特定字符串

D 进行去重时，使用DISTINCT比order by 效率更高

关于线性回归的描述，以下正确的是（）

A 基本假设包括随机干扰项是均值为0，方差为1的标准正态分布

B 基本假设是包括随机干扰是均值为0的同方差正态分布

C 在违背基本假设是，普通最小二乘法不是是最佳线性无偏估计量

D 在违背基本假设

模型不再可以估计

皮尔森系数

B C D

选AD

是A D

编程题（全部是SQL）

数据分析岗位漫谈

1.数据分析岗位需求

1.1宏观环境（PEST)

1.2 市场规模需求不同，

1.3 竞争岗位情况分析

猜你喜欢

热点阅读