数据分析岗位漫谈
2019年毕业大军达到900万人,校招,春招是国内,国外,应届生的战场,随着就业形势一年比一年严峻, 越来越多的岗位对应聘者提出了多元化需求,其中被众多求职者诟病的即是“数据分析岗位”,在如今在大数据时代,凡是和数据沾一点边的人都想应聘这个岗位,它不下雨算法,机器学习岗位的聪明的大脑,但也是分析岗位,这也造成了这个岗位在不同公司需求也不同,并且随着算法的普及,机器学习也成为了数据分析岗位的求职点。 接下来我们将主要分析医学数据分析岗位需求,招聘的人才要求,求职者画像, 如何准备等
1.数据分析岗位需求
1.1宏观环境(PEST)
从政治来看: 全球统一化,国际贸易等各个方面越来越需要数据分析的业务
从经济来看,目前倡导精准营销,精准用户, 精准医学,在很多行业和公司都希望使用数据直接定位目标用户, 而数据分析提供了这样的契机
从文化来看,数据分析可以直观展现数据本身,符合大众期待,相比较算法来说具有更明确的解释性
从技术来看,在互联网环境下,技术更新日新月异,数据分析行业要学习的知识也增加许多,技术指标体系都已建立,发展良好。
1.2 市场规模需求不同,
根据国内2018年岗位研究报告,数据分析人才仍高居前几位。不同地区需求不同,其中以北上广深需求最大,二三线城市次之。
1.3 竞争岗位情况分析
数据分析岗位是比较玄学的岗位, 1方面是要能力范围广,包括业务,逻辑,技术等, 另外一方面 是转行人员多。
数据分析岗位细分
1--业务类的数据分析
2--商业类的数据分析
3-偏机器学习的数据分析
数据分析岗位薪资
互联网最高,其次
数据分析--发展方向
1,产品经理 2.结合行业成为高级数据分析师
求职者画像
学校: 偏爱985,211,双一流
专业: 数学,统计, 计算机,电子类,和数据接触的岗位都可以,
实习: 最好有, ,没有的话有笔试
笔试: 包括行测,机器学习,主观题,可能会有编程题
需要掌握的技能:
业务类
Excel +SQL+ 统计学+概率论+业务理解+逻辑能力
机器学习类
Excel+SQL+ML+统计学+概率论+业务
2019数据分析工程师笔试
单选题(20道题,40分)
bootstrap 是什么原理—有放回的从N个样本中抽样n个
bootstrap方法是从大小为n的原始训练数据集中随机选择n个样本点组成一个新的训练集,这个选择过程独立重复B次,然后用这B个数据集对模型统计量进行估计(如均值、方差等)。由于原始数据集的大小就是n,所以这B个新的训练集中不可避免的会存在重复的样本。
统计量的估计值定义为独立的B个训练集上的估计值的平均:
区分bootstrap、bagging、boosting和adaboost
https://blog.csdn.net/wangjian1204/article/details/50668929
bootstrap、bagging、boosting和adaboost是机器学习中几种常用的重采样方法。其中bootstrap重采样方法主要用于统计量的估计,bagging、boosting 和 adaboost方法则主要用于多个子分类器的组合。
Bootstrap 是对统计量的估计,有放回的从N个样本中抽样n个样本,独立重复B次,然后用这B 个数据集对模型统计量进行估计(如均值,方差),这个B个样本中必然会存在重复样本
Bagging (Bootstrap Aggregating),第一步采样就是使用Bootstrap Sample (Bagging是对训练样本采样) 方法是从大小为n的原始训练数据集D中随机选择n′(n′
boosting依次训练k个子分类器,最终的分类结果由这些子分类器投票决定。首先从大小为n的原始训练数据集中随机选取n1n1个样本训练出第一个分类器,记为C1C1,然后构造第二个分类器C2C2的训练集D2D2,要求:D2D2中一半样本能被C1C1正确分类,而另一半样本被C1C1错分。接着继续构造第三个分类器C3C3的训练集D3D3,要求:C1C1、C2C2对D3D3中样本的分类结果不同。剩余的子分类器按照类似的思路进行训练。(只是改变了数据分布)
Random Forest,结合了Bagging和Feature Selection方法,当然也使用林Bootstrap Sample方法 (不仅仅对训练样本采样,还对Feature采样)
https://www.jianshu.com/p/708dff71df3a
用户消费表中时间格式是“年-月-日-时-分-秒”,在MySQL中获取“年-月-日”的函数是(A)
A DATE --返回日期
B GETDATE —返回日期和时间
C DAY()–1、day(date_expression) 返回date_expression中的日期值
D GETDAY()—无此函数
假设使用较短的时间在一个足够大的数据集上训练决策树,可以采用什么办法(C)
A 增加树的深度
B 增加学习率
C减少树的深度
D 减少树的数量
解析: 增加树的深度, 会导致所有节点不断分裂, 直到叶子节点是纯的为止. 所以, 增加深度, 会延长训练时间.决策树没有学习率参数可以调. (不像集成学习和其它有步长的学习方法)决策树只有一棵树, 不是随机森林。
需要删除表user的数据,但是保留表结构且不释放空间,以下哪个语句可以实现()
A DELETE TABLE user
B REMOVE TABLE user
C DROP TABLE user
D TRUNCATE TABLE user
在SQL中,能快速删除数据表中所有记录,但保留数据表结构的语句是Truncate。
使用Truncate删除所有行,该语句总是比不带条件的DELETE语句要快,因为DELETE语句要记录对每行的删除操作,而Truncate 语句只记录整个数据页的释放。Truncate语句立即释放由该表的数据和索引占用的所有空间,所有索引的分发页也将释放。
Delete 删除 表中的行
DROP删除整个表,包括表结构和表定义
REMOVE没有这个查询定义
某抽卡公司出示出SSR的概率是0.1,用户画符500次,得到45个符,问在5%的显著水平下,能够认为游戏商在谎报概率吗?()
A 能
B不能
C 不确定
D 就算画符5000次,得到450个符,也不能
对于统计检验来说,这里设置的是a=0.05, Ho 假设如果计算的概率p>a大于显著水平,即是没有足够的证据去拒绝原假设,即尚不能拒绝H0, 如果p<a,即可以拒绝原假设H0
某服务器请求分配到集群A,B, C, D 进行处理响应的概率分别是10%,20%,30%,和40%, 测试各集群的稳定性分别是90%, 93%,99%,和99.9%,现在该服务器请求处理失败,且已排除稳定性以外的问题,那么最有可能在处理该服务集群的是(B)
A 集群A、
B 集群B
C 集群C
D 集群D
令L代表服务器请求处理失败,A,B,C,D分别代表对应的集群处理响应。
则有P(A)=10%,P(B)=20%,P©=30%,P(D)=40%
P(L|A)=10%,P(L|B)=7%,P(L|C)=1%,P(L|D)=0.1%
题目要求P(X|L),知识点:全概率公式、贝叶斯公式;对于4个集群而言,分母P(失败)是恒定的,因此只需比较分子P(失败|集群=i)*P(集群=i)的大小。
X可取A,B,C,D,求其中的最大值。
根据贝叶斯概率公式
P(A|L)P(L)=P(L|A)P(A)=10% * 10%=0.01
P(B|L)P(L)=P(L|B)P(B)=20% *7%=0.014
P(C|L)P(L)=P(L|C)P©=0.003
P(D|L)P(L)=P(L|D)P(D)=0.0004
其中,P(L)虽然未知,但不用计算,即可比较大小,得P(B|L)最大
所以选B
关于大数定理和中心极限定理 说法错误的是(B)
A 大数定理和中心极限定理都是用来描述 独立同分布的随机变量的和的渐进表现
B 它们描述的是在不同收敛速率之下的表现,大数定理的前提条件强一点
C 利用大数定理可以用样本均值估计总体分布的均值
D 中心极限定理描述的是某种形式的随机变量之和的分布
http://www.360doc.com/content/17/0207/09/9200790_627187280.shtml
大数定理说的是随机现象平均结果的稳定性
中心极限定理 论证随机变量的极限分布是正态分布
大数定理比中心极限定理宽松,中心极限条件强,结论更强
关于MySQL中数据类型的描述,以下错误的是(C)
A VARCHAR 用于描述可变长度的非二进制字符串
B DATETIME 和TIMESTAMP 是相同的数据类型,可以相互替换 √
C 以“hh:mm:ss”格式存储时间值的是DATETIME 数据类型 ×是TIME
D TINYINT属性只适合数字类型的数据
以下哪些机器学习模型没有用到learning rate 学习率 作为超参数()
A 随机森林
B Adaboost
C Gradient Boosting
D lightGBM
决策树没有参数可以调节
只要使用了梯度下降法就会有学习率
游戏中的武器攻击值是60, 使用宝石可以增加攻击值,如果是A有40%的概率打出暴击,攻击值增加一倍,是宝石B的话有20%的概率打出暴击,攻击值增加三倍,如果是C的话10% 攻击值增加5倍, 各个事件均为独立事件,但是多个暴击同时发生时,支取最高值, 这个数学期望是多少()–??
A 129.38
B139.68
C152.18
D 145.98
40% 20% 10% 30%
120 240 360
E(x)= 1200.4+ 2400.2+360*0.1==
对于二分类问题中样本不平衡问题(负例较多),下面那个解决方案不适用(C))
A 对训练集的负样本进行欠采样
B 直接基于原始数据集进行训练 在预测的时候改变阈值
C 对训练集的正负比例进行升采样
D 对正例进行升采样
过抽样:过抽样也叫做上采样(over-sampling).这种方法通过增加分类中少数样本的数量来实现样本均衡。最直接的方法是简单复制少数样本形成多条记录。比如正负比例为1:10,那么我们可以将正例复制9遍来达到正负比例1:1。但是这种方法的缺点就是如果样本特征少而可能导致过拟合的问题;经过改进的过抽样方法通过在少数类中加入随机噪声、干扰数据或通过一定规则产生新的合成样本,例如SMOTE算法。
2,欠抽样:欠抽样也叫做下采样(under-sampling),这种方法通过减少分类中多数分类的样本数量来实现样本均衡,最直接的方法就是随机的去掉一些多数类样本来减小多数类的规模,缺点是会丢失多数类样本中的一些重要信息。
总而言之,过抽样和欠抽样更适合于大数据分布不均衡的情况,尤其是第一种(过抽样)应用更加广泛。
过采样(英语:Oversampling)是指以远远高于信号带宽两倍或其最高频率对其进行采样的过程。
2,通过正负样本的惩罚权重解决样本不均衡。
3,通过组合集成方法解决样本不均衡。
4,通过特征选择解决样本不均衡
SQL 中 语句正确的执行顺序是
From—where—group by —having –select----order by –limit
RNN 在特定的神经元给定任意输入,得到的输出是-0.001. 那么RNN中隐藏层使用的激活函数可能是()
A ReLu(0,x)
B Tanh (-1,1)
C Sigmoid–(0,1)
D 其他都不是
????
在含有一个或者两个均值的假设检验中要使用()??? 不确定
A 卡方检验
B t 变量
C F变量
D z 变量
下面说法错误的是()
A 零假设提出一个参数是否等于某个特殊值的问题
B p值越小,拒绝零假设的理由就越充分
C p 值和零假设的对错的概率有关
D p值描述的是在总体的许多样本中,某一类数据出现的经常程度
C????
16.贝叶斯分类利用以下哪种概率计算( 后验概率)
利用先验概率计算后概率 应该是先验概率
One vs rest 分类法 对于n 个类别的分类任务,需要训练多少模型—n
现在需要查询包括‘_’的数据,以下SQL 不能实现的是:
从表中执行的操作
不可以的是修改主键,以及插入一个和主键学号一样的信息
多选题(10道,30分)
假如出现以下哪种情况,可以表明训练RNN模型过程中出现了梯度爆炸?
A 梯度模型快速变大
B 模型权重为NAN
C 每个节点和层的误差梯度值持续超过1.0
D 损失函数持续减少
E梯度模型以指数形式衰减
关于SQL 的优化,以下说法正确的是()
A select 子句 中尽量避免使用 *, 尽量列出需要查询的字段
B 大小表连接是,把大表写入内存,再拼接小表
C KEY键NULL值较多时,把 NULL赋值为特定字符串
D 进行去重时,使用DISTINCT比order by 效率更高
关于线性回归的描述,以下正确的是()
A 基本假设包括随机干扰项是均值为0,方差为1的标准正态分布
B 基本假设是包括随机干扰是均值为0的同方差正态分布
C 在违背基本假设是,普通最小二乘法不是是最佳线性无偏估计量
D 在违背基本假设
模型不再可以估计
皮尔森系数
B C D
选AD
是A D
编程题(全部是SQL)