数据科学家究竟是什么样的?
六年前,“哈佛商业评论”将数据科学家评为“21世纪最性感的工作”。从那时起,数据科学家已经成为美国发展最快的职业之一,毕业生的起薪达到六位数,雇主需求继续超过供给。
但是,这些人幸运地得到了Glassdoor称之为“美国最佳工作”的演出?成为其中之一需要什么?并且正在成为一名数据科学家真的和你认为的炒作一样伟大吗?
为了探究这些问题,我使用Stack Overflow收集的数据来回应他们2018年的年度开发者调查。该数据集包含来自全球183个国家和地区的软件开发人员的近100,000份回复。
在受访者中,有7,088人(7.7%)自称为数据科学家。这些受访者与数据所代表的其余85,010名非数据科学家软件开发人员进行了比较。
第1部分:“典型”数据科学家的样子是什么?
历史上,计算机科学和软件开发被描述为书呆子男性程序员的领域。只要看看HBO 硅谷的演员 (如图所示),看看我的意思。
但随着最近围绕数据科学的炒作,我希望这可能已经发生了变化。在“21世纪最性感的工作”中工作的前景是否足以吸引更多人口众多的个人加入计算机和科技?答案似乎是 否定的。
image.png
图1:数据科学家(DS)与非数据科学家(Non_DS)的性别(左)和年龄(右)分布比较
从图1中可以看出,数据科学家和非数据科学家受访者的年龄和性别分布几乎相同。数据科学家和非数据科学家的平均年龄为30.5岁,91%的数据科学家是男性,而非数据科学家的这一比例为92%。
这表明,数据科学工作的增长不仅没有吸引人们从新的人口统计数据到计算和技术,而是为那些有可能成为开发人员的人创造了新的职业道路。
然而,比较数据科学家和非数据科学家的教育背景确实揭示了这两个群体之间的一个关键差异。
图2:数据科学家(DS)与非数据科学家(Non_DS)的最高级别分布比较
图2显示,尽管与普遍看法相反,有可能成为没有硕士或博士学位的数据科学家,数据科学家比非数据科学家更有可能拥有高级学位,45%数据科学家的受访者持有硕士或博士学位,相比之下,23%的非数据科学家。
这表明数据科学和非数据科学开发人员角色所需技能的差异,数据科学角色更可能需要作为高级学位课程的一部分教授的技能。
第2部分:数据科学家和非数据科学家之间的编码技巧有何不同?
鉴于雇主对数据科学家角色的学术要求较高,这就提出了一个问题:与非数据科学家相比,雇主还需要更多的数据科学家编码经验吗?
事实上,图3显示了相反的情况。
图3:数据科学家(DS)与非数据科学家(Non_DS)的专业编码经验分布比较
与非数据科学家开发人员相比,数据科学家通常拥有更少的专业编码经验,62%的数据科学家受访者拥有5年或更少的专业编码经验,而非数据科学家的这一比例为57%。
这表明,在开发者角色中,不是要求更多的数据科学家在各方面,而是在编码技能和大学教授的各种技术技能之间进行权衡。
然而,并非所有编程语言都是平等的,数据科学家和非数据科学家在日常工作中使用的编程语言不一定相同。
数据科学家更有可能使用为Python或R等统计建模和分析设计或使用库的语言,而非数据科学家更有可能使用与Web开发活动相关的语言进行编程,例如HTML,CSS和JavaScript。
例如,77%的数据科学家报告在过去一年中使用Python编程,而非数据科学家的这一比例为35%,而72%的非数据科学家报告说在过去一年中使用过JavaScript编程,而55%数据科学家。
这反映了数据科学家通常执行的任务类型的差异,数据科学家通常专注于使用统计和建模技术从数据中获取洞察力,而非数据科学家更有可能参与软件工程或Web开发 - 类型活动。
第3部分:数据科学家对他们的职业生涯比非数据科学家更满意吗?
如果数据科学家真的是现在最好的工作,那么我们期望数据科学家比非数据科学家更满意他们的工作和他们的职业生涯。这正是我们从数据中观察到的。
然而,尽管数据科学家确实比非数据科学家对工作和职业生涯更满意,但这两个群体往往在工作和职业生涯中都享有高水平的满足感。
图4显示,73%的数据科学家和70%的非数据科学家对他们的工作至少略微满意,而74%的数据科学家和73%的非数据科学家至少对他们的职业生涯略感满意。
image.png
图4:数据科学家(DS)与非数据科学家(非DS)的工作满意度(左)和职业满意度(右)分布的比较
因此,即使数据科学的职业不适合您,任何与发展相关的角色都可能导致工作和职业满意度水平与“美国最佳工作”相似。
结论
在探索了作为数据科学家的工作所需的内容之后,以及如何与登陆非数据科学家开发人员角色,以及比较这两组人员的工作水平和职业满意度,我们发现:
- 尽管数据科学家和非数据科学家倾向于来自相似的人口统计背景(即主要是年轻男性),但数据科学家比非数据科学家更有可能拥有高级学位,但往往缺乏专业的编码经验。
- 数据科学家更倾向于使用统计和建模为重点的编程语言,如Python和R,而不是非数据科学家同行,他们倾向于支持基于Web开发的语言,如HTML,CSS和JavaScript。
- 尽管数据科学家比非数据科学家享有更高的工作和职业满意度,但这两个群体往往对自己的工作和职业非常满意。
综上所述,一个典型的数据科学家似乎是一个刻板的书呆子男性程序员:一个30多岁的男性,具有高级学位和一些使用Python或R等语言编程的专业经验。
然而,仅仅因为这是“典型”数据科学家现在的样子,这并不意味着这将是未来的样子。事实上,为了全球经济,这种形象 必须 改变。
如前所述,数据科学是一个快速发展的行业,需求一直超过供应,预计将在未来许多年内持续发展。
满足这种需求的最佳方式是雇主寻找方法来吸引传统上在计算机科学和技术中代表性不足的人口群体中的个人。
如果您认为自己不适合“典型”的数据科学家模型,那么,我的建议是: 不要气馁。
数据科学专业为各种背景的人提供了充足的空间,根据数据科学家所享有的工作和职业满意度,开发获得数据科学所需技能的工作非常值得。
毕竟,谁不想在“21世纪最性感的工作”中工作?