原标题:2019数据科学家最需求的技术盘点,Python大火,Pytorch职位需求翻番
来历:medium ,大数据文摘 编译:赵吉克
2018年medium上一篇博文剖析了数据科学家最需求的技术,那篇文章引起了很大的反应,在medium上有超越11000次点赞,并被翻译成几种言语,成为了2018年11月KD Nuggets最受欢迎的文章。
2018年文章链接:
https://towardsdatascience.com/the-most-in-demand-skills-for-data-scientists-4a4a8db896db
一年多曩昔了,2019的作者也发布了最新的剖析,让咱们看看有什么改变。
2018年的文章查询了对核算和沟通交流等一般技术的需求以及对Python和R等技术的需求。软件技术的改变必定快于一般技术需求上的改变,所以在本更新中只包含技术部分。
咱们查找了SimplyHired、Indeed、Monster和linkedIn以检查在美作业的列表中哪些关键词和“数据科学家”一起呈现。这一次,咱们决议用Request和Beautiful Soup包来获取作业列表,而不是手艺查找。
事实证明,linkedIn的爬取要困难得多,因为检查作业的列表的精确数字需求身份验证。我决议运用Selenium进行无头阅读。2019年9月,美国最高法院对linkedIn做出了判定,答应其数据被爬取。尽管如此,在几回抓取测验后,仍是无法访问账户,这样的一个问题或许源于刷新率约束。
不管怎么说,微软具有linkedIn,Randstad Holding具有Monster, Recruit Holdings具有Indeed和SimplyHired。
无论如何,linkedIn的数据或许无法供给从上一年到本年的苹果公司职位比照。本年夏天,linkedIn的一些技术职位查找词每周都会呈现大幅动摇。这或许是因为他们企图经过运用自然言语处理来衡量查找意图,因而对他们的查找成果算法进行了试验。比较之下,别的三个查找网站在曩昔两年中呈现的“数据科学家”相关职位列表数量则相对挨近。
根据这些原因,linkedIn被扫除在本文2019年和2018年的剖析之外。
关于每个作业查找网站,咱们核算了该网站中呈现的每个关键词在所有数据科学家作业列表中所占的百分比。然后,在三个站点上为每个关键字取这些百分比的均匀值。
一起手动查询了新的查找词以及那些看起来很有出路的词。在2019年,没有新的查找词到达占整体5%的占有水平,这是下述成果中运用的切断目标。
PyTorch职位需求翻番
咱们选用四种办法来检查每个关键字的成果:
- 办法1: 关于每个求职网站,在每个年度用包含关键词的列表数量除以包含data scientist的查找词总数。 然后取三个网站的均匀值。
- 办法2: 看看2018年至2019年这些列表的均匀份额改变的绝对值。
- 办法3: 看看2018年至2019年这些列表的均匀份额改变的相对百分比。
在完结上面的榜首个过程之后,核算每个关键字相关于该年度其他关键字的排名,然后核算每一年的排名改变。
调查前三个带有柱状图的选项,然后咱们将展现一个包含数据的表并评论成果。
这是上文中办法1对应的2019年图表,显现Python呈现在近75%的列表中。
这是上文中办法2的图表,显现了2018年至2019年职位列表中某项技术需求的改变。AWS显现上升了5%。在2019年和2018年上市的公司中,这一份额分别为19.4%和14.6%。
这是上文办法3对应的图表,显现了每年的百分比改变。2018年, PyTorch上榜职位需求数均匀增加了108.1%。
以下是上述图表中的信息用表格方式展现的成果,按2018年至2019年上榜职位份额在三家网站均匀后的改变百分比排序。
稳居榜首的python,落寞的R
在不到14个月的时间内技术需求发生了相当大的改变!
优胜者
Python依然排名榜首。到目前为止,它是最常用的言语。简直霸占了四分之三的榜单,与2018年比较,Python运用量有了可观的增加。
SQL运用量快速提高。它简直快要超越取得第二高均匀分数的R言语。假如持续坚持该趋势,SQL很快将成为真实的第二。
出色的深度学习结构得到了广泛运用。PyTorch在所有关键字中的增幅最大,Keras和TensorFlow也表现出色。Keras和PyTorch在排名中均上升了4位,TensorFlow上升了3位。请注意,因为PyTorch的开始均匀值较低,TensorFlow的当时均匀值仍是PyTorch均匀值的两倍。
数据科学家对云渠道技术的需求渐渐的变大。AWS的呈现频率高达20%,Azure约10%。Azure在排名中跃升了四位。
落败者
R言语的整体均匀下降起伏最大。根据其他调研,这一趋势家常便饭。Python明显现已替代R成为数据科学的首选言语。尽管如此,R依然十分受欢迎,呈现在55%的榜单中。假如您了解R言语,请不要懊丧,但假如您想要把握需求量更大的技术,请考虑学习Python。
许多Apache产品遭到欢迎,包含Pig,Hive,Hadoop和Spark。Pig的排名下降了5位,比任何其他技术都下降得多。Spark和Hadoop依然是人们遍及期望把握的技术,可是我以为,转向其他大数据技术渐渐的变成了一种趋势。
专有的核算软件包MATLAB和SAS运用量急剧下降。MATLAB在排名中下降了四位,而SAS从第六位下降到第八位。与2018年的均匀水平比较,两种言语均呈现了大幅下降。
引荐一个学习途径
假如你刚开始从事数据科学,我主张你专注于需求增加和有发展潜力的技术,而且每次只专注学习一种技术
以下是我引荐的学习途径:
- 学习Python以把握惯例编程;
- 学习pandas来进行数据操作;
- 经过Scikit-learn库学习机器学习;
- 学习用于高效查询相关数据库的SQL;
- 学习Tableau以进行数据可视化;
- 关于云核算渠道,根据AWS的市场占有率,它是一个不错的挑选;
- 学习一个机器学习结构,Keras现在与TensorFlow紧密结合,因而它是一个很好的起点,PyTorch也在迅速发展。
这是我的整体学习途径主张。依照你的需求各取所需吧。
相关报导:
https://towardsdatascience.com/the-most-in-demand-tech-skills-for-data-scientists-d716d10c191d
责任编辑: