数据相关
Spark有3种运行模式(分布式部署方式):独立集群运行模式(Standlone)、YARN运行模式、Mesos运行模式,YARN最为常见。
熵是为消除不确定性所需要获得的信息量
image.png
SecondaryNameNode的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间,secondarynamenode一般在另外一个节点上运行,需要与namenode一样大的内存,作用就是定期合并编辑日志与命名空间镜像,以防止编辑日志过大。
但是该辅助namenode总会滞后于namenode
判别式模型(Discriminative Model)
条件随机场模型
区分度训练
MapReduce的步骤中有partition、Sort、Combine
人工神经网络可以没有隐层,直接输入与输出
在hadoop2.6.0集群中的一台服务器上运行jps指令,会出现进程
NameNode
DataNode
ResourceManager
Yarn中的关键组件并简述各关键组件内部的交互原理
1、关键组件:
ResourceManager(RM)
NodeManager(NM)
ApplicationMaster(AM)
Container
2、交互原理:
(1)RM调度资源并在合适的NM节点上启动对应的AM。AM向RM注册,包含二者之间的握手信息、AM侦听端口,及后续进行AM管理和监控的URL。
(2)RM接收AM注册信息,并反馈响应给AM,包含集群资源信息。
(3)AM向RM发起资源分配请求,包含需要使用的Container个数,同时附带归属于本AM的Container信息。
(4)AM向RM获取资源分配进度信息,并保持与RM之间的心跳。
(5)RM根据资源调度策略,分配容器资源给AM。
(6)AM根据RM反馈信息,指示对应NM完成Container的拉起。一个NM上可以启动多个Container。
(7)在Container运行过程中,AM向NM获取Container的运行状态报告。
(8)NM将Container的运行状态信息反馈给AM。
现有1TB文本文件words.txt,文件每行为若干个英文单词,单词间用空格分隔,文件中存在单词word1占据了总单词量的30%以上,其他单词出现频率较为平均。根据以上场景,请描述mapreduce如何统计每个单词出现的频次。
1.map阶段
map方法按行读取文件,每行文件按空格分隔为一个单词列表,依次读取每个单词.
若单词为word1,则map阶段的输出为<word1_randomInt(50),1>,即"word1_"加0-50 之间的随机整数。 其他单词直接输出<单词,1>。
注:只要答出map阶段对单词word1的输出key值进行构造,以达到将word1均分为多个不同的key输出的目的即可,具体方法可有所区别。
2.combine阶段
注:计算方法同reduce阶段,该步骤可省去,答出+1分。
3.reduce阶段
对同一key值得value进行累加,得出各个key值的出现次数。
4.计算最终结果。
依次逐行读取reduce阶段输出目录中的所有文件:
a.若key不是形同"word1_XX",直接输出key和value,即得出对应单词的出现频次。
b.若key类似"word1_XX",对所有key的value值累加,即可得出word1的出现频次。
为了能最大程度的得到优质的信用卡客户,更精准地确定客户优劣和价值高低。考虑利用机器学习的思想在已有传统人工规则的基础上作辅助决策。针对这个场景,详细描述所需要的数据、数据的处理过程、选择的算法及原因、评价指标等过程。
利用分类模型lr,gbdt,xgboodt,决策树等都可以。这里以lr为例子,需要数据为:客户基本信息,包括年龄,收入,性别等,客户征信信息,包括贷款,还款记录等,客户司法信息,包括是否有犯罪等。这些特效数值型与分类型均有。预处理需要缺失填补,异常值处理,归一化等,然后特征选择,基于熵或者iv,woe编译。最后拟合模型,常见模型评估用混淆矩阵,召回率,精确率,auc值等。