2021年数据科学就业市场趋势分析

2022-04-27 本文已影响0人 Python_Camp

了解雇主对2021年的数据科学家角色的期望。数据分析来自3000多个数据科学家的招聘信息--使用网络刮擦从几个职业门户中提取。
作者 Sujan Shirol, Roberto Iriondo
免责声明：这篇文章仅用于教育目的。我们不鼓励任何人搜刮网站，特别是那些可能有条款反对这种行为的网络属性。

image.png

你在为2021年的数据科学工作面试做准备吗？我们已经分析了几个在线职业门户的3000多个数据科学工作岗位的招聘趋势。希望这些见解能帮助你通过分析雇主的期望和整体市场需求，为面试做好准备。

美国的数据科学和机器学习机会每年都在增加。在谈到企业对数据科学家的需求时，各行业和职能部门（IT、营销、咨询等）的公司都开始加大对数据科学家的使用和需求。事实上，根据美国劳工统计局最近的工作前景报告，企业需求在未来十年将有巨大的增长。

作为一名数据科学家，你可以期望因你的技能而获得丰厚的报酬。为了了解今天的角色和企业需求在未来的样子，我们对数据科学家的角色进行了自己的研究，并对招聘门户网站进行了深入调查，以了解美国初创公司和企业对候选人的确切需求。

为了分析当前的趋势，了解其意义、见解和市场需求，我们已经站出来，试图为未来的求职者启迪一些有趣的推论。这一分析背后的主要目的是帮助求职者和职业转型者更好地了解当前市场对数据科学家和机器学习从业者的需求。

下面的数据分析将为我们提供一个概述:

美国积极招聘数据科学家的顶级公司 🌃

在美国招聘数据科学家的首选地点 🗺️

美国数据科学家所需的经验水平 📊

在美国招聘数据科学家的顶级公司提供的最紧缺的工作角色 ❗️

不同经验水平群体中的职位趋势

在美国，数据科学家最需要的15种技能 📚

美国数据科学家职位发布的顶级编程语言

美国数据科学职位空缺的顶级数据可视化工具

在美国的数据科学招聘信息中，最受欢迎的深度学习框架是什么？

美国数据科学家职位发布的顶级网络框架

最后的思考
为了启动分析，我们需要最新和最准确的数据。因此，最好的选择似乎是在网络上搜刮美国的一些流行的招聘门户网站。

网络抓取
Selenium是提取相关信息的最快、最实惠、最可靠的方法之一。这个数据分析项目使用Selenium来刮取招聘门户网站的网站。导入必要的软件包和设置chrome驱动路径是相当直接的。循环点击50个页面，其中每个页面包含20个招聘信息的简要描述，使得3000多个招聘信息的数据得到分析。
最重要的是，提取每个招聘信息的URL将引导我们进入相应招聘信息的详细页面，其中有所有需要推断的细节。

import pandas as pd
import numpy as np
from selenium import webdriverfrom 
selenium.common.exceptions 
import NoSuchElementException
chromepath = r'D:\Drivers\Chrome Driver\chromedriver.exe'
url_list = []
for i in range(1, 50):    
print('Opening Search Pages ' + str(i))    
page_url = 'https://jobportalexample.com/data-scientist-jobs-'+str(i)    
driver = webdriver.Chrome(chromepath)    
driver.get(page_url)    
print('Accessing Webpage OK \n')    
url_elt = driver.find_elements_by_class_name("fw500")    
print('Success')        
for j in url_elt:        
    url = j.get_attribute("href")        
    url_list.append(url)        
    driver.close()
    
url_list_copy_cleaned = [i for i in url_list]
out_company_df = pd.DataFrame(url_list_copy_cleaned, columns=['Website'])
out_company_df.head()

图2：数据框架。
现在，变量url_list_copy_cleaned有3000多个职位列表的URL。下一步是打击所有的1000个页面并提取细节。
将会被搜刮的元素是。
✔️公司
✔️地点
✔️经验
✔️角色
✔️技能

jobs={'roles':[],
     'companies':[],
     'locations':[],
     'experience':[],
     'skills':[]}

driver = webdriver.Chrome(chromepath)for url in out_company_df['Website']:
    driver.get(url)
    try:
        name_anchor = driver.find_element_by_class_name('pad-rt-8')
        name = name_anchor.text
        jobs['companies'].append(name)
    except NoSuchElementException:
        jobs['companies'].append(np.nan)
    
    try:
        role_anchor = driver.find_element_by_class_name('jd-header-title')
        role_name = role_anchor.text
        jobs['roles'].append(role_name)
    except NoSuchElementException:
        jobs['roles'].append(np.nan)
    
    try:
        location_anchor = driver.find_element_by_class_name('location')
        location_name = location_anchor.text
        jobs['locations'].append(location_name)
    except NoSuchElementException:
        jobs['locations'].append(np.nan)
    
    try:
        experience_anchor = driver.find_element_by_class_name('exp')
        experience = experience_anchor.text
        jobs['experience'].append(experience)
    except NoSuchElementException:
        jobs['experience'].append(np.nan)
    
    try:
        skills_anchor = driver.find_elements_by_class_name("chip")
        each_skill = []
        for skills in skills_anchor:
            each_skill.append(skills.text)
        jobs['skills'].append(each_skill)
    except NoSuchElementException:
        jobs['skills'].append(np.nan)
 driver.close()

注意，捕捉NoSuchElementException错误是非常重要的，因为有几个URL会直接把我们带到公司的网站，而不是同一工作门户网站的另一个细节页面。在这种情况下，我们要找的HTML元素可能不存在，这就会产生一个错误。

为了更好地进行数据处理和预处理，将数据固化为Pandas DataFrame是最好的选择。在所有的预处理步骤之后，如删除空值、拆分列、标记位置、技能列等，清理后的数据集被带到Tableau，以获得最佳的可视化📈。

如果你对Tableau不熟悉，它是一家美国交互式数据可视化软件公司，专注于商业智能[1]。

数据分析（深入了解）

图3：CSV表格。

image.png

美国积极招聘数据科学家的顶级公司
图4：美国积极招聘数据科学家的顶级公司。

在美国，埃森哲在数据科学家的职位空缺方面排名第一，其次是亚马逊、苹果和Facebook。这里需要特别注意的是，招聘数据科学家的顶级公司要么是社交媒体公司，要么是电子商务或支付处理平台，如贝宝和谷歌支付。

所有这些公司每天都有最多的客户参与，导致数以千计的PB数据流。如果我们仔细观察，埃森哲公司是一家爱尔兰跨国公司，提供咨询和处理服务[2]，如应用服务、数据和分析、技术创新、商业智能、自动化等等，这需要大量熟练的数据科学家和工程师。

image.png

美国雇用数据科学家最多的地区
图5：美国雇用数据科学家最多的地区。

旧金山 📍占了大约15%的职位列表，这是不言而喻的，也是至关重要的，因为硅谷--位于北加州旧金山湾区南部的一个地区，是全球高科技和创新的中心[3]。
紧随这一趋势的是西雅图、圣何塞、奥斯汀、波士顿、纽约市、圣地亚哥、丹佛、达拉斯、匹兹堡等--在全国的数据科学工作岗位总数中贡献了很大一部分。
令人惊讶的是，匹兹堡进入了美国招聘数据科学家的十大城市名单，有2.55%的数据科学家的招聘信息列在这座钢铁城市中。这些都是求职者可以增加他们找到梦想工作的机会的地方。

image.png

美国的数据科学家所需的经验水平
图6：美国的数据科学家所需的经验水平。

从上面的统计数据可以看出，企业寻求有经验的数据科学家的经验范围是5-10年，占数据科学家总需求的17%，3-8年占13%。不幸的是，入门级数据工作的范围很小，而完全的新手几乎没有，这使得找工作很有挑战性。
这一分析也显示了数据科学领域的市场是多么不成熟。如果不为新鲜人才提供机会，未来的年轻数据科学家就很难获得经验。接受事实，新手们必须在自己的领域里做到最好，并努力从人群中脱颖而出。

image.png

图7：在美国招聘数据科学家最多的公司提供的工作角色。

令人震惊的是，企业在寻求经验丰富的科学家时，将工作角色仅仅称为数据科学家。重要的职位空缺是针对5-10年有经验的专业人士。高级数据科学家的职位占总需求的22%。令人耳目一新的是，助理数据科学家在前五个条件中。尽管如此，统计数字还是迫使我们质疑副数据科学家应该拥有什么水平的经验❓。一如既往，答案就在数据本身。👇

image.png

图8：不同经验水平组内的职位趋势。
而经验水平组。5-10年的数据科学家和高级数据科学家的机会相同，各占9.17%，而2-7年的经验水平组有2.16%的高级数据科学家和0.36%的首席数据科学家的空缺。协理数据科学家的要求属于3-5年的经验水平范围内。

image.png

图9：美国数据科学家最需要的15项技能。

对于世界上大多数工作来说，技能是至关重要的。让我们来看看任何数据科学家都必须具备的15大技能。拥有正确的技能为任何求职者打开了更多充足的机会🚪。Python编程、分析和机器学习是公司最需要的三大技能。

大多数人有一个错误的概念，认为SQL是作为数据科学家最不需要的，但它属于前五项技能。通过以上分析，我们希望能更容易地铺设通往更好的数据职业的道路。

image.png

图10：美国数据科学家职位发布的顶级编程语言。

在应届人才中非常著名的争论🗣或困惑😵是在Python和R、Julia和Scala之间选择合适的编程语言。根据我们的分析，Python在这些招聘信息的总需求中占了近50%，而第二位又是由SQL占据。
因此，拥有Python和SQL技能是至关重要的。令人惊讶的是😲C++在前5个编程语言需求中占了3.8%的份额。MATLAB占总需求的3.3%，是一个编程和数值计算平台，被数百万工程师和科学家用来分析数据、开发算法和创建模型[4]。

image.png

图11：美国数据科学职位发布的顶级数据可视化工具。

Tableau是一个可视化分析平台，它改变了我们使用数据解决问题的方式--使人们和组织能够充分利用他们的数据[5]，而Power BI是一个软件服务、应用程序和连接器的集合，它们共同将你不相关的数据源转化为连贯的、视觉上沉浸的和互动的洞察力。

你的数据可能是一个Excel电子表格，也可能是一个基于云和企业内部的混合数据仓库的集合。Power BI可以让你轻松地连接⛓️到你的数据源，可视化并发现什么是必要的，并与你想要的任何人或所有人分享[6] 。

Tableau和Power BI大致相同，但有一些小的区别。虽然Power BI是微软公司高度信任的产品，但Tableau是业界最受欢迎的产品。让我们来解读一下Tableau为何如此受欢迎。

经过一番研究🧐，发现Power BI是为普通的利益相关者建立的，不一定是专业的数据分析师。有了Tableau，数据分析师在清理和转换数据为可视化时就不会有什么麻烦。

Tableau的速度更快，能力更强，而且它还提供了许多高级技术，如参数和自定义计算。由于我们搜刮的数据是关于数据科学的，而Tableau最适合专业的数据分析师，所以Tableau变成了我们这个案例场景的首选工具。

image.png

图12：美国数据科学职位发布的顶级深度学习框架。

深度学习是人工智能中机器学习的一个子集，它的网络能够学习非结构化或无标签的无监督数据。它也被称为深度神经学习或深度神经网络，它模仿人脑🧠的工作原理来处理数据，用于检测物体、识别语音、翻译语言和做出决定[7]。

有许多深度学习的框架，但Tensorflow、Keras和PyTorch是最受欢迎的框架。它们提供了一整套的库来处理深度学习技术，并有效地利用GPU硬件的力量。谷歌的TensorFlow，占总需求的43%，似乎是市场上需求量最大的深度学习框架，其次是Keras和PyTorch。

image.png

图13：美国数据科学家职位发布的顶级大数据技术。

随着数据量每分钟都在增加，世界需要一种新的方法来处理这些数据，而大数据是一个领域，它处理的是如何分析、系统地提取信息或以其他方式处理那些过于庞大或复杂而无法由传统数据处理应用软件处理的数据集[8]。

目前存在多种大数据技术，但Apache Spark、Hadoop、Hive和Kafka是目前公司使用的流行技术。与其他大数据技术相比，Apache Spark和Hadoop似乎更有优势。

image.png

图14：美国数据科学家职位发布的顶级网络框架。

利用数据科学技能构建机器学习模型是一项主要任务，而将模型部署到生产中供非技术人员使用是数据科学生命周期的另一项相关任务♻️。

部署通常是以网络应用程序的形式进行的，业界希望数据科学家拥有网络框架的技能和知识来部署任何机器学习模型。MongoDB、Django、JavaScript和HTML是目前市场上流行的网络技能。为了在行业中领先一步，这些网络框架在当前状态下是必须的。

最后的思考
一切看起来都是压倒性的，但请知道，并不要求同时拥有所有这些技能。挑选一个或两个，最多三个--然后专心致志，深入钻研。

此外，你不必等到获得所有的技能后再去申请工作。除非你申请的公司是一个恐龙，否则在寻找数据工作时或在工作中不断学习是可以接受的。请在你的简历中和向猎取你的招聘人员提及你现在正在学习的技能，当然，不要忘记定期更新你的简历，并为工作角色定制相应的简历。

在深入学习上述技能之前，请确实掌握统计和线性代数的基本知识。但不仅仅是学习技能--最重要的是要有项目、黑客活动、坚实的Github资料等形式的实践知识。另外，拥有一个自己的博客或频道也是你的数据简历的一个很好的补充。

免责声明：本文所表达的观点是作者的观点，不代表与作者有关的任何公司（直接或间接）的观点。这项工作并不打算成为最终产品，而是对当前思想的反映，同时也是讨论和改进的催化剂。

2021年数据科学就业市场趋势分析

猜你喜欢

热点阅读