今年百度發(fā)布了他們在大數(shù)據(jù)方面的人才需求,今年百度招聘1500名應(yīng)屆大學(xué)畢業(yè)生,明年預(yù)計擴招至2000名;未來還將通過提供新型崗位、加大培訓(xùn)力度等,培養(yǎng)500萬名AI人才,讓更多百姓的“飯碗”端得更穩(wěn)、更安心。
分析是使用網(wǎng)絡(luò)抓取從1000多個最近的大數(shù)據(jù)分析師工作中完成的,這些工作是從工作門戶中提取的。
最近,有很多同學(xué)積極地開始尋找大數(shù)據(jù)分析領(lǐng)域的工作變動,你如果沒有像碩士或博士學(xué)位這樣的正規(guī)教育和AI /機器學(xué)習(xí)的背景。他們完全出于自己的興趣開始學(xué)習(xí)大數(shù)據(jù)分析。這是選擇加入富挑戰(zhàn)性的途徑之一,尤其是在同時開發(fā)其他技術(shù)的情況下。有的人通過參加許多培訓(xùn)課程開始了自己的數(shù)據(jù)分析職業(yè)生涯,并開始閱讀書籍和業(yè)內(nèi)網(wǎng)站。
打開各種招聘網(wǎng)站的需求,你可以清楚的看到公司企業(yè)提到傳統(tǒng)數(shù)據(jù)分析,機器學(xué)習(xí),深度學(xué)習(xí),一些ETL工具和多種大數(shù)據(jù)技術(shù)是必需技能。我認為這沒關(guān)系,因為最近每家公司都有自己對大數(shù)據(jù)分析師的定義,并開了另一份工作。這次出現(xiàn)了對某些其他技術(shù)的需求。
請記住,所有這些開口僅在大數(shù)據(jù)分析師下標(biāo)記。所有這些開口都有共同的要求,例如機器學(xué)習(xí)算法,統(tǒng)計,數(shù)據(jù)分析,數(shù)據(jù)清理和深度學(xué)習(xí)技術(shù)。除了這些技能外,一些公司還希望候選人能在云(AWS,Azure或GCP)和Tableau,Power BI等數(shù)據(jù)可視化工具以及SSIS等ETL工具方面擁有知識。通常,這些技術(shù)更多地與數(shù)據(jù)分析師/數(shù)據(jù)工程師角色有關(guān),但大數(shù)據(jù)分析師角色仍在不斷發(fā)展,并且尚未真正堅持特定的技能。
作為從事多年的就業(yè)指導(dǎo)老師確實了解這樣一個事實,即公司正在尋找適合其職位空缺并且在所需技術(shù)方面具有技能的申請人。這肯定會為公司節(jié)省時間和金錢,而無需再次提供培訓(xùn)。
因此,在這里,我有一個有趣的想法,可以理解IT行業(yè)真正期望大數(shù)據(jù)分析師實時扮演的角色,而不是通常在MOOC中講授的角色。
目標(biāo): 我們將嘗試找出當(dāng)前行業(yè)中最需要的技能和趨勢。為此,我們將從工作門戶中抓取數(shù)據(jù)。
注意:整個分析是針對大數(shù)據(jù)分析師在中國市場中的作用而進行的。
在公司企業(yè)需要什么樣的數(shù)據(jù)分析人才中,我們將嘗試找到一些重要問題的答案,每個大數(shù)據(jù)分析求職者都將想到這些問題。
1)公司正在尋找的頂級技能是什么?
2)業(yè)界最需要的經(jīng)驗水平是什么?
3)在該領(lǐng)域積極提供工作的公司有哪些?
4)什么地方有更多空缺?
一、網(wǎng)頁抓取
我已經(jīng)從中國頂級職位門戶網(wǎng)站收集了所有相關(guān)的職位信息, 這些日子幾乎幾乎每個求職者和招聘人員都在使用。由于傳統(tǒng)的BeautifulSoap方法在該站點上無法正常工作,因此我一直使用selenium-python進行網(wǎng)絡(luò)抓取。
免責(zé)聲明:網(wǎng)絡(luò)爬網(wǎng)純粹是出于教育目的。
對于每項工作,我們將抓取這五個要素:角色,公司名稱,經(jīng)驗,位置和關(guān)鍵技能。
抓取代碼:
二、預(yù)處理
在開始之前,我們先做一些基本的預(yù)處理。
2.1、處理缺失值:
執(zhí)行基本清理,找到丟失的值并將其刪除。
2.2、處理重復(fù)數(shù)據(jù):
在處理重復(fù)數(shù)據(jù)時,我們必須非常小心,因為公司可能會多次發(fā)布相同的要求,因為該工作仍處于開放狀態(tài),或者另一方面,公司可能正在尋找具有相同要求的全新職位 。為簡單起見,我沒有刪除任何數(shù)據(jù)。
2.3、標(biāo)記位置和技能列
將所有字符串轉(zhuǎn)換為小寫只是為了避免冗余,并標(biāo)記了位置和技能列,因為這些列中有多個值。
這就是預(yù)處理后的樣子。
三、分析
現(xiàn)在,我們擁有一切開始。
3.1、哪個位置提供更多空缺?
注意:如果您不是來自中國,請隨時跳過此位置部分。
1)如果我們觀察以上情節(jié),幾乎有 38% 的工作位于 班加羅爾。
2)班加羅爾,孟買,海得拉巴 和 浦那排名前四的城市幾乎占該國大數(shù)據(jù)分析工作總數(shù)的72 % 。
3)因此,如果您來自這些城市中的任何一個,則獲得大數(shù)據(jù)分析師工作的機會可能比其他城市多。
3.2、哪些公司正在積極招聘?
1)Analytics Vidhya educon 排名第一,幾乎 占總職位清單的21%。
2)列表上也有很多 顧問。這些顧問通常為他們的客戶進行招聘。
3)通常,工作門戶中的競爭會非常激烈。大多數(shù)時候,由于收到大量申請,招聘人員甚至可能不會查看您的個人資料。在某些情況下,即使是一個空缺,您也必須與其他數(shù)百名申請人競爭。最好了解正在積極招聘的公司,以便我們可以直接通過其官方網(wǎng)站進行申請,這增加了進行面試的可能性。
3.3、最想要的體驗是什么?
各種經(jīng)驗水平的工作機會。
1)我們可以看到,公司顯然正在尋找有 經(jīng)驗的候選人。具有 5至10年經(jīng)驗的候選人似乎還有更多空缺。 這是有道理的,因為大數(shù)據(jù)分析師的工作涉及經(jīng)驗帶來的關(guān)鍵決策技能。
2)具有至少2年 經(jīng)驗的候選人 有相當(dāng)好的機會。
3)這并不意味著新生不可以進入,而只是經(jīng)驗豐富的候選人比新生更多的空缺。公司通常不從這些工作門戶網(wǎng)站招聘應(yīng)屆畢業(yè)生,而是直接從校園招聘中招聘新生。新生可以隨時選擇為初創(chuàng)公司工作以獲得必要的經(jīng)驗。
3.4、需求角色是什么
這是要研究的重要步驟,因為在獲得一些結(jié)果之后,工作門戶通常會開始顯示與我們正在尋找的工作無關(guān)的其他一些工作。為了確保我們正在尋找合適的角色,讓我們檢查一下經(jīng)常提到的前10個角色。
1)如果我們在上一節(jié)中觀察到,有更多經(jīng)驗的人有更多空缺,這使我們有一個基于角色的空缺問題。
2)大多數(shù)職位空缺仍被稱為大數(shù)據(jù)分析師。其次是高級大數(shù)據(jù)分析師和首席大數(shù)據(jù)分析師,他們當(dāng)然需要良好的先前經(jīng)驗。
3.5、公司正在尋找的技能
最后,我們到了。您可能正在閱讀此書的主要原因。
1)看起來非常正確,不要擔(dān)心,我將在后面部分對其進行分解。我之所以包含許多技能的原因是由于大數(shù)據(jù)分析涉及的領(lǐng)域廣泛。
2)盡管我們能夠在上面的圖表中描述一些頂級技能,但它仍然不能滿足此分析的目的。
讓我們深入了解更清楚的趨勢。
3.5.1)必須具備的技能?
1)機器學(xué)習(xí)作為大數(shù)據(jù)分析師擁有的最重要技能,這不足為奇。
2)數(shù)據(jù)挖掘 和 數(shù)據(jù)分析 是每個大數(shù)據(jù)分析師必須經(jīng)歷的關(guān)鍵活動。
3)要成為更好的大數(shù)據(jù)分析師,就需要強大的統(tǒng)計模型。
4)公司期望深度學(xué)習(xí)方面有豐富的知識, 因為它提供了解決諸如NLP 和 Computer Vision等領(lǐng)域中一些有趣的實時問題的最新技術(shù)。
5)由于每天記錄的數(shù)據(jù)量大量增加,用人單位希望候選人對大數(shù)據(jù)技術(shù)有所了解。實時地,我們可能正在研究龐大的數(shù)據(jù)集,這些技能肯定會派上用場。
3.5.2)需要編程語言嗎?
1)如果您剛開始學(xué)習(xí)大數(shù)據(jù)分析,那么一開始,您肯定會發(fā)現(xiàn)選擇正確的編程語言非常困難。盡管有許多語言,但是競爭一直是Python和R本身之間的競爭。讓我們看看什么數(shù)據(jù)在告訴我們。
2)由于其豐富的庫以及 R 語言,該行業(yè)仍然支持 Python。
3)對于每個大數(shù)據(jù)分析師來說,SQL都是必須的。盡管不適合被視為編程語言,但我還是趁機將其包括在這里:)。
4)在python和R之后,似乎對SAS 和 C ++ 語言有很好的需求。
3.5.3)選擇的深度學(xué)習(xí)框架?
1)由于深度學(xué)習(xí)的突然興起,許多深度學(xué)習(xí)框架都由Google和Facebook等巨頭進入市場。
2)與PyTorch相比, 該行業(yè)贊成 Tensorflow。
3)Keras 在市場上占有很好的份額,由于其簡單易用的特性,人們喜歡它。
4)盡管還有許多其他框架,例如Caffe,Maxnet,但似乎沒有多少空缺。如果不是全世界,至少在中國。
3.5.4)哪種大數(shù)據(jù)技術(shù)具有優(yōu)勢?
1)Spark 排名第一??梢允褂胹park -Pyspark的python版本。
2)Hadoop 的機會幾乎與Spark相同,只是差別很小。
3)Hive 也有很多空缺 。
3.5.5)哪個云提供商需要ML?
1)訓(xùn)練模型涉及大量計算,而這些計算很容易變得非常昂貴。公司正在尋找更便宜的方式來完成工作,這就是這些云平臺出現(xiàn)的地方。
2)AWS 排名第一,其次是 Azure。
3)公司正在迅速向云選項發(fā)展。這些技術(shù)在未來的大數(shù)據(jù)分析中將有更多的機會發(fā)揮重要作用。
3.5.6)需要數(shù)據(jù)可視化工具嗎?
1)雇主對于Tableau 的數(shù)據(jù)可視化表現(xiàn)出更多的興趣 。
2)盡管Microsoft的 Power BI 仍然落后。
結(jié)論:
如果您具備大數(shù)據(jù)分析師提到的所有必備技能,那么最好的方法應(yīng)該是開始參加面試,同時嘗試填補自己的理解空白,并學(xué)習(xí)可以為您帶來優(yōu)勢的工具/技術(shù)。超過其他候選人。
填寫下面表單即可預(yù)約申請免費試聽!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費! 怕學(xué)不會?助教全程陪讀,隨時解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!
?2007-2022/ mwtacok.cn 北京漫動者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc