数据分析岗位漫谈

2020-01-09  本文已影响0人  爱因斯没有坦

2019年毕业大军达到900万人,校招,春招是国内,国外,应届生的战场,随着就业形势一年比一年严峻, 越来越多的岗位对应聘者提出了多元化需求,其中被众多求职者诟病的即是“数据分析岗位”,在如今在大数据时代,凡是和数据沾一点边的人都想应聘这个岗位,它不下雨算法,机器学习岗位的聪明的大脑,但也是分析岗位,这也造成了这个岗位在不同公司需求也不同,并且随着算法的普及,机器学习也成为了数据分析岗位的求职点。 接下来我们将主要分析医学数据分析岗位需求,招聘的人才要求,求职者画像, 如何准备等

1.数据分析岗位需求

1.1宏观环境(PEST)

 从政治来看: 全球统一化,国际贸易等各个方面越来越需要数据分析的业务

从经济来看,目前倡导精准营销,精准用户, 精准医学,在很多行业和公司都希望使用数据直接定位目标用户, 而数据分析提供了这样的契机

从文化来看,数据分析可以直观展现数据本身,符合大众期待,相比较算法来说具有更明确的解释性

从技术来看,在互联网环境下,技术更新日新月异,数据分析行业要学习的知识也增加许多,技术指标体系都已建立,发展良好。

 1.2 市场规模需求不同,

根据国内2018年岗位研究报告,数据分析人才仍高居前几位。不同地区需求不同,其中以北上广深需求最大,二三线城市次之。

1.3 竞争岗位情况分析

数据分析岗位是比较玄学的岗位, 1方面是要能力范围广,包括业务,逻辑,技术等, 另外一方面 是转行人员多。

数据分析岗位细分

 1--业务类的数据分析

2--商业类的数据分析

3-偏机器学习的数据分析

数据分析岗位薪资

互联网最高,其次

数据分析--发展方向

1,产品经理  2.结合行业成为高级数据分析师

求职者画像

学校: 偏爱985,211,双一流

专业: 数学,统计, 计算机,电子类,和数据接触的岗位都可以, 

实习: 最好有, ,没有的话有笔试

笔试: 包括行测,机器学习,主观题,可能会有编程题

需要掌握的技能:

业务类

Excel +SQL+ 统计学+概率论+业务理解+逻辑能力

机器学习类

Excel+SQL+ML+统计学+概率论+业务

2019数据分析工程师笔试

单选题(20道题,40分)

bootstrap 是什么原理—有放回的从N个样本中抽样n个

bootstrap方法是从大小为n的原始训练数据集中随机选择n个样本点组成一个新的训练集,这个选择过程独立重复B次,然后用这B个数据集对模型统计量进行估计(如均值、方差等)。由于原始数据集的大小就是n,所以这B个新的训练集中不可避免的会存在重复的样本。

统计量的估计值定义为独立的B个训练集上的估计值的平均:

区分bootstrap、bagging、boosting和adaboost

https://blog.csdn.net/wangjian1204/article/details/50668929

bootstrap、bagging、boosting和adaboost是机器学习中几种常用的重采样方法。其中bootstrap重采样方法主要用于统计量的估计,bagging、boosting 和 adaboost方法则主要用于多个子分类器的组合。

Bootstrap 是对统计量的估计,有放回的从N个样本中抽样n个样本,独立重复B次,然后用这B 个数据集对模型统计量进行估计(如均值,方差),这个B个样本中必然会存在重复样本

Bagging (Bootstrap Aggregating),第一步采样就是使用Bootstrap Sample (Bagging是对训练样本采样) 方法是从大小为n的原始训练数据集D中随机选择n′(n′

boosting依次训练k个子分类器,最终的分类结果由这些子分类器投票决定。首先从大小为n的原始训练数据集中随机选取n1n1个样本训练出第一个分类器,记为C1C1,然后构造第二个分类器C2C2的训练集D2D2,要求:D2D2中一半样本能被C1C1正确分类,而另一半样本被C1C1错分。接着继续构造第三个分类器C3C3的训练集D3D3,要求:C1C1、C2C2对D3D3中样本的分类结果不同。剩余的子分类器按照类似的思路进行训练。(只是改变了数据分布)

Random Forest,结合了Bagging和Feature Selection方法,当然也使用林Bootstrap Sample方法 (不仅仅对训练样本采样,还对Feature采样)

https://www.jianshu.com/p/708dff71df3a

用户消费表中时间格式是“年-月-日-时-分-秒”,在MySQL中获取“年-月-日”的函数是(A)

A DATE --返回日期

B GETDATE —返回日期和时间

C DAY()–1、day(date_expression) 返回date_expression中的日期值

D GETDAY()—无此函数

假设使用较短的时间在一个足够大的数据集上训练决策树,可以采用什么办法(C)

A 增加树的深度

B 增加学习率

C减少树的深度

D 减少树的数量

解析: 增加树的深度, 会导致所有节点不断分裂, 直到叶子节点是纯的为止. 所以, 增加深度, 会延长训练时间.决策树没有学习率参数可以调. (不像集成学习和其它有步长的学习方法)决策树只有一棵树, 不是随机森林。

需要删除表user的数据,但是保留表结构且不释放空间,以下哪个语句可以实现()

A DELETE TABLE user

B REMOVE TABLE user

C DROP TABLE user

D TRUNCATE TABLE user

在SQL中,能快速删除数据表中所有记录,但保留数据表结构的语句是Truncate。

使用Truncate删除所有行,该语句总是比不带条件的DELETE语句要快,因为DELETE语句要记录对每行的删除操作,而Truncate 语句只记录整个数据页的释放。Truncate语句立即释放由该表的数据和索引占用的所有空间,所有索引的分发页也将释放。

Delete 删除 表中的行

DROP删除整个表,包括表结构和表定义

REMOVE没有这个查询定义

某抽卡公司出示出SSR的概率是0.1,用户画符500次,得到45个符,问在5%的显著水平下,能够认为游戏商在谎报概率吗?()

A 能

B不能

C 不确定

D 就算画符5000次,得到450个符,也不能

对于统计检验来说,这里设置的是a=0.05, Ho 假设如果计算的概率p>a大于显著水平,即是没有足够的证据去拒绝原假设,即尚不能拒绝H0, 如果p<a,即可以拒绝原假设H0

某服务器请求分配到集群A,B, C, D 进行处理响应的概率分别是10%,20%,30%,和40%, 测试各集群的稳定性分别是90%, 93%,99%,和99.9%,现在该服务器请求处理失败,且已排除稳定性以外的问题,那么最有可能在处理该服务集群的是(B)

A 集群A、

B 集群B

C 集群C

D 集群D

令L代表服务器请求处理失败,A,B,C,D分别代表对应的集群处理响应。

则有P(A)=10%,P(B)=20%,P©=30%,P(D)=40%

P(L|A)=10%,P(L|B)=7%,P(L|C)=1%,P(L|D)=0.1%

题目要求P(X|L),知识点:全概率公式、贝叶斯公式;对于4个集群而言,分母P(失败)是恒定的,因此只需比较分子P(失败|集群=i)*P(集群=i)的大小。

X可取A,B,C,D,求其中的最大值。

根据贝叶斯概率公式

P(A|L)P(L)=P(L|A)P(A)=10% * 10%=0.01

P(B|L)P(L)=P(L|B)P(B)=20% *7%=0.014

P(C|L)P(L)=P(L|C)P©=0.003

P(D|L)P(L)=P(L|D)P(D)=0.0004

其中,P(L)虽然未知,但不用计算,即可比较大小,得P(B|L)最大

所以选B

关于大数定理和中心极限定理 说法错误的是(B)

A 大数定理和中心极限定理都是用来描述 独立同分布的随机变量的和的渐进表现

B 它们描述的是在不同收敛速率之下的表现,大数定理的前提条件强一点

C 利用大数定理可以用样本均值估计总体分布的均值

D 中心极限定理描述的是某种形式的随机变量之和的分布

http://www.360doc.com/content/17/0207/09/9200790_627187280.shtml

大数定理说的是随机现象平均结果的稳定性

中心极限定理 论证随机变量的极限分布是正态分布

大数定理比中心极限定理宽松,中心极限条件强,结论更强

关于MySQL中数据类型的描述,以下错误的是(C)

A VARCHAR 用于描述可变长度的非二进制字符串

B DATETIME 和TIMESTAMP 是相同的数据类型,可以相互替换 √

C 以“hh:mm:ss”格式存储时间值的是DATETIME 数据类型 ×是TIME

D TINYINT属性只适合数字类型的数据

以下哪些机器学习模型没有用到learning rate 学习率 作为超参数()

A 随机森林

B Adaboost

C Gradient Boosting

D lightGBM

决策树没有参数可以调节

只要使用了梯度下降法就会有学习率

游戏中的武器攻击值是60, 使用宝石可以增加攻击值,如果是A有40%的概率打出暴击,攻击值增加一倍,是宝石B的话有20%的概率打出暴击,攻击值增加三倍,如果是C的话10% 攻击值增加5倍, 各个事件均为独立事件,但是多个暴击同时发生时,支取最高值, 这个数学期望是多少()–??

A 129.38

B139.68

C152.18

D 145.98

40% 20% 10% 30%

120 240 360

E(x)= 1200.4+ 2400.2+360*0.1==

对于二分类问题中样本不平衡问题(负例较多),下面那个解决方案不适用(C))

A 对训练集的负样本进行欠采样

B 直接基于原始数据集进行训练 在预测的时候改变阈值

C 对训练集的正负比例进行升采样

D 对正例进行升采样

过抽样:过抽样也叫做上采样(over-sampling).这种方法通过增加分类中少数样本的数量来实现样本均衡。最直接的方法是简单复制少数样本形成多条记录。比如正负比例为1:10,那么我们可以将正例复制9遍来达到正负比例1:1。但是这种方法的缺点就是如果样本特征少而可能导致过拟合的问题;经过改进的过抽样方法通过在少数类中加入随机噪声、干扰数据或通过一定规则产生新的合成样本,例如SMOTE算法。

2,欠抽样:欠抽样也叫做下采样(under-sampling),这种方法通过减少分类中多数分类的样本数量来实现样本均衡,最直接的方法就是随机的去掉一些多数类样本来减小多数类的规模,缺点是会丢失多数类样本中的一些重要信息。

总而言之,过抽样和欠抽样更适合于大数据分布不均衡的情况,尤其是第一种(过抽样)应用更加广泛。

过采样(英语:Oversampling)是指以远远高于信号带宽两倍或其最高频率对其进行采样的过程。

2,通过正负样本的惩罚权重解决样本不均衡。

3,通过组合集成方法解决样本不均衡。

4,通过特征选择解决样本不均衡

SQL 中 语句正确的执行顺序是

From—where—group by —having –select----order by –limit

RNN 在特定的神经元给定任意输入,得到的输出是-0.001. 那么RNN中隐藏层使用的激活函数可能是()

A ReLu(0,x)

B Tanh (-1,1)

C Sigmoid–(0,1)

D 其他都不是

????

在含有一个或者两个均值的假设检验中要使用()??? 不确定

A 卡方检验

B t 变量

C F变量

D z 变量

下面说法错误的是()

A 零假设提出一个参数是否等于某个特殊值的问题

B p值越小,拒绝零假设的理由就越充分

C p 值和零假设的对错的概率有关

D p值描述的是在总体的许多样本中,某一类数据出现的经常程度

C????

16.贝叶斯分类利用以下哪种概率计算( 后验概率)

利用先验概率计算后概率 应该是先验概率

One vs rest 分类法 对于n 个类别的分类任务,需要训练多少模型—n

现在需要查询包括‘_’的数据,以下SQL 不能实现的是:

从表中执行的操作

不可以的是修改主键,以及插入一个和主键学号一样的信息

多选题(10道,30分)

假如出现以下哪种情况,可以表明训练RNN模型过程中出现了梯度爆炸?

A 梯度模型快速变大

B 模型权重为NAN

C 每个节点和层的误差梯度值持续超过1.0

D 损失函数持续减少

E梯度模型以指数形式衰减

关于SQL 的优化,以下说法正确的是()

A select 子句 中尽量避免使用 *, 尽量列出需要查询的字段

B 大小表连接是,把大表写入内存,再拼接小表

C KEY键NULL值较多时,把 NULL赋值为特定字符串

D 进行去重时,使用DISTINCT比order by 效率更高

关于线性回归的描述,以下正确的是()

A 基本假设包括随机干扰项是均值为0,方差为1的标准正态分布

B 基本假设是包括随机干扰是均值为0的同方差正态分布

C 在违背基本假设是,普通最小二乘法不是是最佳线性无偏估计量

D 在违背基本假设

模型不再可以估计

皮尔森系数

B C D

选AD

是A D

编程题(全部是SQL)

上一篇下一篇

猜你喜欢

热点阅读