机器学习机器学习程序猿日记

数据挖掘面试准备(2)|实习项目知识总结

2016-10-08  本文已影响1126人  是蓝先生

时间都是虚妄。
1.实际回答中要举例子时,不要说比如,而要说:以当时我做为例,xxxx
2.讲述一个事例时先讲结论,做到了什么样子。
3.说一下你的哪些闪光点,除了非专业知识外,自己有较强的学习能力和自我驱动力(学习爬取数据),抗压能力(实习和论文兼顾)。

后面会陆陆续续去纠正里面的细节问题。


今天是10.12r ,早上学校下起了雨,这两天来回在大学城跑,虽然面了一些公司,但也错过了一些,9点来到实验室时,发现昨晚特地去的钜盛华笔试是在大学城而且也是九点,瞬间就什么也不想说了。

还是聚焦几个自己想做的公司吧,不然真心好累又没什么结果。
BGM——《北方的女王》

说一下昨天面试的华为:
1、模型里的数据问题:

模型可能训练多次来改善分类器的性能,其中一种方法就是——交叉验证(Cross-validation,CV)。
K折交叉验证——即将初始采样样本分割成K个子样本,1个单独的子样本被保留作为验证模型的数据,剩下其他K-1个样本用来训练。然后第2个子样本作验证样本,其他剩下K-1个样本用来训练,,直到所有的子样本都被验证一次,最后对测试的准确率做平均即为该模型的准确率
(在scikit-learn中有CrossValidation的实现代码,用该方法做到了模型准确率从67%提升到86%)

2、有没有想过怎样改进人群圈定的思维?
有试过用一/三日游、签证,这种相关联的产品去圈定,但模型预测效果并不好。


今天是2016.10.8r

如何解决训练集中不平衡问题?
即训练集中正负样本比例不能差别过大,这样会导致学习到的分类器是无效的。(样本数量较少的类别叫稀有类,较多的叫多数类。

解决办法是:
1.赋予小类样本更高的训练权值
2.对小类进行过采样
(过抽样指复制正样本,直到训练集中正样本和负样本一样多。)
3.常规的分类评价指标可能会失效,比如将所有的样本都分类成大类,那么准确率、精确率等都会很高。这种情况下,AUC是最好的评价指标。


1. 关于大麦信息科技有限公司+大数据分析员岗位总结

**
**
背景:公司主要是做电商平台代运营推广的,自己主要负责管理5个店铺(女装+化妆品+旅游签证类产品)。

问题:在店铺推广上普遍存在引流不足、引流不准的问题,因此主要的思路就是:需要找到大量精准的潜在客户人群,以及针对老客户建立精选人群,从新客户挖掘和老客户维护两方面同时提升运营推广效果。

怎样去找到精准人群:

  1. 根据皮尔逊相关系数,相关度高的特征可能很重要选入;
  2. 随机森林、GBDT、xgboost这些算法内部会对特征重要性进行评价和选择;(决策树生成的过程也是特征选择的过程,选择特征的依据通常是划分后子节点的纯度,划分后子节点越纯,则说明划分效果越好。)
  3. 信息增益,用信息增益来量化特征的质量,值越大说明特征越有区分力,也就越好。
1.png

(这里面如果问起来就需要对算法的原理进行讲解,以及python的实现函数的包等)
用pandas中来进行数据预处理和特征工程,其中的DataFrame数据格式用起来很便利;
用scikit-learn库中,有实现聚类,分类,回归等模型;
Xgboost库实现GBDT模型;
Matplotlib用于作图

训练一个模型大概需要1到2个小时的时间。这里本质上来说是一个二分类问题,即是否会购买商品,校验标准大概有以下几个方面:TPR(真正率)、FPR(假正率)、ROC曲线、AUC值,TPR和AUC数值也是越大说明我们的模型性能越好。

得到分类器后,将带预测目标人群扔进分类器,可以得到每个人群的购买概率(购买的可能性大小)。这样,我们就可以根据运营投放计划的人群数量需求,设定合理的购买概率阈值,产出一定人数的精准定向营销人群。

结果


2. 关于鹏华基金有限公司+数据助理工程师岗位总结

**
**

使用informatic具体主要做什么?
使用:主要做一些mapping
其次informatic里挂的都是一些存储过程


3. 关于长城宽带网络服务有限公司 +数据库开发员岗位总结

**
**

优点在于:可提高数据库执行速度、可重复利用、安全性能好;缺点:可读性较差

大数据挖掘岗面试准备.jpg
上一篇 下一篇

猜你喜欢

热点阅读