解密大数据

硅谷数据科学家成长之路

2017-05-06  本文已影响265人  万能滴小笼包

主讲人介绍

蒲博士,统计学博士
2007年-2011年在上海交大读核工程专业
2011年-2013年在明尼苏达大学读物理专业
2013年-2017年在加州大学圣地亚哥分校读统计学专业
即将毕业前往硅谷的一家明星企业做数据科学家

主要内容

一、踏上统计学之路

(一)起因

硕士期间主修物理,同时也选修了统计课,发现对统计学的理解比对物理的理解更容易,且统计学专业更容易找工作,因此,决定继续深造,申请统计学博士。

(二)努力转型

因硕士期间没有数学基础与背景,所以选择课程自行学习并且拿到统计学教授的推荐信。

(三)读博经历

统计博士的学位要求

1.完成课程
2.通过笔试
3.开题报告
4.发论文,参加会议
5.博士论文答辩

读博期间的课题领域:稀疏PCA,稀疏聚类,非参数/半参数统计,高维统计

读博期间的paper

1.from sparse PCA to sparse clustering
2.a simple approach to sparse clustering
3.Semiparametric Estimation of Symmetric Mixture Models with Monotone and Log-Concave Densities
4.Concentration of Measure for Radial Distributions and Consequences for Statistical Modeling

读博期间的业余生活:攀岩、游泳、观光、徒步等

读博的出路

学术界or工业界?

总结:学术界并不好走,首先要能发表含金量高的论文,其次导师在学术界有一定的权威,最后要有沟通与教学的能力(而且教学的付出与收入不成正比)
那么博士进入工业界又有什么要求呢?

数据科学,一门综合学科

二、暑期实习

实习1:编程能力的提高 实习2:机器学习与统计学的运用

主要任务:利用机器学习的模型预测广告点击率(CTR),进而给不同的用户推荐不同的广告,提高广告营收。


扩展知识:线上广告推广

谷歌2002-2016年的总营收情况 谷歌2001-2016年的广告营收情况 facebook2009-2016年的营收情况

总结:

不同的广告模式

CPM:按展示收费——弹出窗口
CPC:按点击付费——点击广告
CPV:展示广告——按投放广告网站的被展示次数计费,网站被打开一次计一次费(引自CPC、CPM、CPA、CPS、CPT、CPV的区别)


继续yahoo实习的话题,通过对扩展知识的了解,我们对广告模式有了一定的了解。

在yahoo公司的实习主要任务是预测广告的CTR

解决步骤

1.收集数据,包括用户的信息(年龄、性别、薪水等)、广告的信息、广告供应商的信息等。
2.数据清洗
3.提取有用的变量,训练模型
4.用模型预测用户的点击率
5.做线下实验,查看预测成功率
6.线上实验(步骤5成功后才执行步骤6)

实际上,预测广告的CTR是一个分类问题,因为广告被点击,标志设为“1”;相反地,广告没被点击,标志设为“0”。我们关注的并非是广告是否被点击,而是预测点击的概率有多少。
预测中使用的模型是逻辑回归模型,典型的监督学习算法,也是典型的分类算法。
真正在CTR预测中运用的模型是决策树GDBT逻辑回归算法


扩展:分类算法


三、找工作经历

面试流程与要点 面试心得

笔记总结:

1.转专业需要很大的勇气,最重要的是要看自己擅长什么、感兴趣的是什么

2.想要做的事情就尽全力去做,并且要提高自主学习能力

3.三思而后行,谨慎一点,对自己的人生负责

4.经验是宝贵的,能力是可提升的

5.软硬能力两手抓,每天进步一点点

6.知道自己目前的优劣点,有意识的弥补自己的不足

最后感谢蒲博士的分享,获益良多,数据科学的道路上我们共同进步!

本文为 泰阁志-解密大数据 学习笔记,了解更多请关注微信“泰阁志”

上一篇 下一篇

猜你喜欢

热点阅读