《数据科学家访谈录》总结·4
01 - 05:DJ Patil, Hillary Mason, Pete Skomoroch, Mike Dewar, Riley Newman
06 - 10:Clare Corthell, Drew Conway, Kevin Novak, Chris Moody, Erich Owen
11 - 15:Eithon Cadag, George Roumeliotis, Diane Wu, Jace Kohlmeier, Joe Blitzstein
16 - 20:Jonh Foreman, Josh Wills, Bradley Voytek, Luis Sanchez, Michelangelo D’ agostino
21 - 25:Michael Hochster, Kunal Punera, Sean Courley, Jonathan Goldman, William Chen
- Jonh Foreman
《Data Smart》作者
教育背景:麻省理工大学·运筹学博士
职业经历:多家咨询公司,NSA,Booz Allen,MailChimp首席科学家
- Jonh的职业经历
对Jonh的采访主要是关于他的职业经历。在读博期间,他参与过戴尔电脑的供应量项目,萌生了进入科技界的想法。博士毕业之后,在美国国家安全局实习过,不喜欢政府的工作环境。现在的公司MailChimp位于亚特兰大,最大的优点是可以给公司很高的独立性。
- 什么数据科学家不应该花时间在Kaggle上?
数据科学家做的主要工作就是建立预测模型,这种说法是不正确的。
在建立一个模型之前,你需要知道你的公司里有什么可用的数据资源,有什么技术对于你来说是有平台资源支持的,有什么技术是适合的,你需要去很好地定义那个问题,并且认真研究其中的各个细节。
在数据科学界有一个观点就是,Kaggle根本不会关注一个问题是不是当务之急必须解决的。
- 在公司里,数据科学家的角色具体是怎样的呢?
一个人人都知道的数据科学家的职责就是清洗和准备数据。寻找、爬取、准备、清洗,这就是这一部分职责的操作流程。在建模之前的数据整理工作量是非常巨大的。
任何数据科学家应该具备的能力就是与商业人士沟通的能力。
- “数据科学”这个术语有点荒唐
“数据科学”的组成就是两个含糊不清的词汇,并没有真正代表我大部分时间在做的事情。作为一个术语的数据科学可能会消亡,成为一个过气的“网红”,但技术确实是很重要的,这些技术终将会深深影响商业界的许多工作。
- 线上世界会开始向线下融合
与李开复不谋而合
- Josh Wills
教育背景:杜克大学·理论数学学士,德州大学奥斯汀分校·运筹学博士。
职业经历:Zilliant,Indeed,Google,Cloudera数据科学主任
- 统计学的学习
大学最后一年学习过统计学入门课程。在奥斯汀为IBM工作时,学习了基本的统计学知识,并有机会加以利用。
(对Josh的采访主要是他就职过的公司的对比,不同公司的工作内容,和数据关系相对较浅。)
- Bradley Voytek
教育背景:南加州大学·物理学学士,伯克利分校博士。
职业经历:Uber,UCSD计算神经科学教授
- 不回避失败
“在很多地方,失败往往会被人鄙视,但是我觉得从某种意义上说,失败也是你成长的过程。”
Bradley的本科GPA很糟糕,但是被伯克利录取。他觉得过去有很多人在关键的时刻给予过他帮助,并且由于对神经科学有更大的兴趣,又回到了学校任职。
- 关于沟通
我经常想起这个画面。能否顺利地与别人沟通交流,讲出你的点子,是一个很重要的问题。
- Luis Sanchez
教育背景:委内瑞拉一所军事大学获得学士学位,LASPAU奖学金的MBA学位
职业经历:ttwick公司的数据科学家与CEO
- 数据科学是什么?
数据科学是一门从一组数据中提取价值的艺术和科学,无论数据大小都是。
叫作“艺术”,因为没有一种万能的方法或者公式可以帮助你回答所有你想问的数据问题。
称为“科学”,因为你需要了解你所做的事情背后的理论机理,并花费10000个小时去磨砺解决问题的方法,让自己培养出条件反射一般的记忆。
- 数据科学家的目标应该是什么?
数据科学家的目标是从最有效的资源利用和时间限制中创造出可操作、可使用的智能价值。数据科学家应该能够以有意义的方式将数据连接起来,从而从数据的组合中创建新的知识,从而能够以创造性的方式模拟和解决问题,并快速地完成所有的工作。
- 学习路径
金融量化,到数据抓取、网络爬虫,人工智能。
- 研究生最该做什么?
除了Visual Basic语言之外,还应该学习更多的语言。我将为曾经的我订立一个学习Octave、Python以及在1995年出现的Java的计划。
- 持续学习的方法
我参加了很多会议和聚会,我尽可能多地阅读有关人工智能、金融工程和其他相关话题的最新发现。
- 数据科学在未来几年会发生什么变化?
我希望最大的进步来自高性能计算和数据存储。还会有更多的“工具”能够被用来进行数据分析。
- Michelangelo D’ agostino
教育背景:哈佛大学·物理学士,伯克利大学·天体物理博士
职业经历:《经济学人》作者,奥巴马竞选团队分析师,Braintree首席数据科学家,Civis Analytics
- 如何接触数据科学的?
读博期间的项目是分析中微子信号模式,使用了大量的神经网络技术。Kaggle刚开始出现的时候,就参与其中。自学了R语言,参加各种Meetup。推荐博客KDNuggets,https://www.kdnuggets.com。
- 上学期间最重要的?
我总是告诉学生,在研究生阶段学到的最有用的技能就是如何自学,以及如何准确定位你还不知道的东西。这是第一件事。第二件事是要坚持不懈,在遇到问题的时候,要绞尽脑汁地前进,直到取得突破。自信心是另一个我想说的东西。最后一件事是,如果有过处理数据的经验,那是极好的。学习如何处理数据的唯一方法是实际使用数据。