通常,數(shù)據(jù)科學(xué)團(tuán)隊(duì)由數(shù)據(jù)分析師,數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師組成。這篇文章我們更深入地了解成為數(shù)據(jù)工程師的一些優(yōu)勢(shì)。
數(shù)據(jù)工程師是將公司或機(jī)構(gòu)內(nèi)所有數(shù)據(jù)生態(tài)系統(tǒng)的各個(gè)部分聯(lián)系起來(lái)的人。他們通過(guò)執(zhí)行以下操作來(lái)實(shí)現(xiàn)此目的:
a.從應(yīng)用程序和系統(tǒng)訪問(wèn),收集,審核和清除數(shù)據(jù),使其變?yōu)榭捎脿顟B(tài)
b.創(chuàng)建和維護(hù)高效的數(shù)據(jù)庫(kù)
c.建立數(shù)據(jù)管道
d.監(jiān)視和管理所有數(shù)據(jù)系統(tǒng)(可伸縮性,安全性等)
e.以可擴(kuò)展的方式實(shí)現(xiàn)數(shù)據(jù)科學(xué)家的輸出
做上面列出的所有事情主要需要一項(xiàng)特殊技能:編程。數(shù)據(jù)工程師是專門從事數(shù)據(jù)和數(shù)據(jù)技術(shù)的軟件工程師。
這使得它們與數(shù)據(jù)科學(xué)家大為不同,后者當(dāng)然具有編程技能,但通常不是工程師。數(shù)據(jù)科學(xué)家將其工作(例如推薦系統(tǒng))移交給數(shù)據(jù)工程師進(jìn)行實(shí)際實(shí)施的情況并不少見(jiàn)。
在由數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家進(jìn)行分析時(shí),通常是數(shù)據(jù)工程師在構(gòu)建數(shù)據(jù)管道和其他系統(tǒng),以確保每個(gè)人都可以輕松訪問(wèn)所需的數(shù)據(jù)(并且沒(méi)有人可以訪問(wèn)數(shù)據(jù)庫(kù))。數(shù)據(jù)誰(shuí)不應(yīng)該)。
軟件工程和編程的強(qiáng)大基礎(chǔ)使數(shù)據(jù)工程師能夠構(gòu)建數(shù)據(jù)團(tuán)隊(duì)及其公司成功所需的工具。我喜歡從樂(lè)高積木的角度來(lái)思考它。工程師設(shè)計(jì)了新的樂(lè)高積木,數(shù)據(jù)科學(xué)家以創(chuàng)新的方式組裝了積木,以創(chuàng)建新的數(shù)據(jù)科學(xué)。
這使我們想到了您可能想成為數(shù)據(jù)工程師的第一個(gè)原因:
1.為什么要學(xué)習(xí)數(shù)據(jù)工程?
數(shù)據(jù)工程師處于數(shù)據(jù)策略的最前沿,因此無(wú)需其他人。他們是第一批解決進(jìn)入公司系統(tǒng)的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)涌入的人。它們是任何數(shù)據(jù)策略的基礎(chǔ)。畢竟,如果沒(méi)有樂(lè)高積木,就無(wú)法建造樂(lè)高城堡。
在上述數(shù)據(jù)需求層次結(jié)構(gòu)中,數(shù)據(jù)工程師完全負(fù)責(zé)最后兩行,并與數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家共同承擔(dān)第三行的責(zé)任。
為了更好地了解關(guān)鍵數(shù)據(jù)工程的重要性,可以想象一下上圖所示的金字塔用作漏斗并上下顛倒。數(shù)據(jù)涌入該程序的頂部,最早接觸數(shù)據(jù)的人是數(shù)據(jù)工程師。它們?cè)谶^(guò)濾,清理和引導(dǎo)數(shù)據(jù)方面越高效,則隨著數(shù)據(jù)進(jìn)一步沿著漏斗流向其他團(tuán)隊(duì)成員,其他一切都將變得更有效率。
反之,如果數(shù)據(jù)工程師不是有效的,它們可以作為以損害所有人的下游工作的漏斗塊。例如,如果構(gòu)建不良的數(shù)據(jù)管道最終給數(shù)據(jù)科學(xué)團(tuán)隊(duì)提供了不完整的數(shù)據(jù),則他們對(duì)該數(shù)據(jù)進(jìn)行的任何分析可能都是無(wú)用的。
這樣,數(shù)據(jù)工程師可以充當(dāng)數(shù)據(jù)策略結(jié)果的乘數(shù)。他們是數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家所肩負(fù)的巨人。
具有良好數(shù)據(jù)策略的公司組建團(tuán)隊(duì)的方式證明了這一點(diǎn):
一個(gè)共同的出發(fā)點(diǎn)是每位數(shù)據(jù)科學(xué)家需要2-3名數(shù)據(jù)工程師。對(duì)于某些具有更復(fù)雜的數(shù)據(jù)工程要求的組織,每個(gè)數(shù)據(jù)科學(xué)家可能需要4-5名數(shù)據(jù)工程師。
2.在技術(shù)上具有挑戰(zhàn)性
數(shù)據(jù)分析人員和科學(xué)家最常使用的Python函數(shù)之一是 read_csv。此函數(shù)將存儲(chǔ)在文本文件中的表格數(shù)據(jù)讀取到Python中,以便可以對(duì)其進(jìn)行瀏覽和操作。
如果您以前使用Python處理過(guò)數(shù)據(jù),則可能非常習(xí)慣鍵入以下內(nèi)容:
簡(jiǎn)單方便,對(duì)吧?該 read_csv 功能是軟件工程本質(zhì)的一個(gè)很好的例子:創(chuàng)建抽象,廣泛,有效和可擴(kuò)展的解決方案。
這是什么意思,它與學(xué)習(xí)數(shù)據(jù)工程有什么關(guān)系?讓我們更深入地看看。
a.抽象。在計(jì)算機(jī)中讀取文件 時(shí),在后臺(tái)進(jìn)行的過(guò)程非常復(fù)雜。但是,我們對(duì)函數(shù)的使用非常簡(jiǎn)單,后臺(tái)發(fā)生的事情與用法無(wú)關(guān)。您無(wú)需了解 read_csv “內(nèi)幕”的工作即可有效地使用它。
b.寬。此功能還允許我們顯式選擇文本文件的表格數(shù)據(jù)中使用的分隔符(例如,逗號(hào),分號(hào),制表符等)。這使它易于與各種CSV樣式一起使用,這對(duì)于數(shù)據(jù)科學(xué)家來(lái)說(shuō)是一種音樂(lè)。還有許多其他選擇,使數(shù)據(jù)從業(yè)人員可以專注于自己的目標(biāo),而不必?fù)?dān)心編程細(xì)節(jié)。
c.高效。 read_csv 快速有效地工作,并且代碼讀取也很有效。
d.可擴(kuò)展 此功能包含的另一個(gè)選項(xiàng)允許我們按塊讀取文件,因此,如果文件太大而無(wú)法讀入計(jì)算機(jī)的RAM,則可以逐塊讀取文件,從而允許用戶處理盡可能大的文件。
正是數(shù)據(jù)工程師在工作,他們才能神奇地構(gòu)建諸如read_csv 抽象,廣泛,高效和可擴(kuò)展的功能之類的工具,以便團(tuán)隊(duì)的其他成員可以專注于數(shù)據(jù)本身及其分析,而不必為編程難題而苦惱。
同時(shí),數(shù)據(jù)工程所需的數(shù)學(xué)知識(shí)可能比數(shù)據(jù)科學(xué)所需的數(shù)學(xué)少,因此,如果您更喜歡編程而不是數(shù)學(xué),那么數(shù)據(jù)工程可能是一個(gè)理想的選擇!
3.獎(jiǎng)勵(lì)
使數(shù)據(jù)科學(xué)家的生活更輕松并不是激勵(lì)數(shù)據(jù)工程師的唯一事情。不可否認(rèn)的是,數(shù)據(jù)工程師正在對(duì)整個(gè)世界產(chǎn)生重大且不斷增長(zhǎng)的影響。
每天,我們都會(huì)創(chuàng)建2.5億個(gè)字節(jié)的數(shù)據(jù),而當(dāng)今數(shù)據(jù)的龐大性使數(shù)據(jù)工程師比以往任何時(shí)候都更加重要。到2025年,物聯(lián)網(wǎng)設(shè)備將超過(guò)640億,高于2018年的約100億和2017年的90億。” 隨著這種增長(zhǎng),來(lái)自更多來(lái)源的數(shù)據(jù)也越來(lái)越多,因此,對(duì)有效處理和引導(dǎo)數(shù)據(jù)的工程師的需求也越來(lái)越大。
這意味著數(shù)據(jù)工程師可以通過(guò)多種方式追求自己的興趣并加深他們的技能。為了讓您了解這個(gè)世界有多么廣闊,這里列出了流行的數(shù)據(jù)工具和技術(shù): Amazon Redshift, Amazon S3, Apache Cassandra, Apache HBase, Apache Kafka, Apache Spark, Apache Zookeeper, Azure, ElephantDB, Hadoop分布式文件系統(tǒng), IBM DB2, MapReduce, Memcached, Microsoft SQL Server, Mongo數(shù)據(jù)庫(kù), Oracle數(shù)據(jù)庫(kù), PostgreSQL, Redis, SQLite, Storm, SAP IQ, Teradata 和 Vertica。
當(dāng)然,數(shù)據(jù)工程師不必知道所有這些,但是此清單僅說(shuō)明了數(shù)據(jù)工程領(lǐng)域要做的事情。一旦擁有了獲得工作的技能,就可以自由選擇自己正在從事的工作以及正在使用的工具。
由于數(shù)據(jù)工程師具有數(shù)據(jù)和軟件工程技能,因此他們也能夠構(gòu)建各種產(chǎn)品。想要為早期創(chuàng)業(yè)做貢獻(xiàn),還是成為企業(yè)家并有一天找到自己的公司?數(shù)據(jù)工程技能為您提供了構(gòu)建出色產(chǎn)品并分析這些產(chǎn)品的性能所需的工具。您將能夠?qū)崿F(xiàn)和衡量幾乎所有您能想到的事情的成功。
想遠(yuǎn)程工作嗎?根據(jù)2019年的《未來(lái)勞動(dòng)力報(bào)告》,“在未來(lái)三年中, 五分之二的全職員工將在遠(yuǎn)程工作”。因此,如果適合在辦公室外工作,則數(shù)據(jù)工程可以幫助您實(shí)現(xiàn)該目標(biāo)。因?yàn)閷?duì)數(shù)據(jù)工程師的需求很高,并且由于大多數(shù)工作可以遠(yuǎn)程完成,所以絕對(duì)有可能找到遠(yuǎn)程數(shù)據(jù)工程工作,或者自己作為短期數(shù)據(jù)工程項(xiàng)目的自由承包商來(lái)工作。
最后,數(shù)據(jù)工程師還有很多回饋社區(qū)的機(jī)會(huì)。根據(jù) 約65%的專業(yè)開發(fā)人員每年或一次以上為開源項(xiàng)目做出貢獻(xiàn)。而且由于您將具有數(shù)據(jù)和工程技能,因此您將能夠?yàn)閿?shù)據(jù)科學(xué)社區(qū)開發(fā)出非??岬男鹿ぞ?,從而真正地發(fā)揮作用。
4.很好
您絕不應(yīng)該僅根據(jù)薪水從事工作 ,但不可否認(rèn)的是薪水很重要!
指定機(jī)器學(xué)習(xí)技能的工作人員平均要支付114,000美元。廣告數(shù)據(jù)科學(xué)家職位的平均薪酬為105,000美元,數(shù)據(jù)工程師職位的平均薪酬為117,000美元。
這并不奇怪。在StackOverflow的開發(fā)人員調(diào)查中,諸如Python,SQL和Shell之類的數(shù)據(jù)工程技能通常是收入最高的技能之一。在撰寫本文時(shí),LinkedIn上的搜索詞“ 數(shù)據(jù)科學(xué)家”大約有70,000個(gè)結(jié)果 ,而搜索詞“ 數(shù)據(jù)工程師”大約有112,500個(gè)結(jié)果 。在GlassDoor上,差異更加明顯:數(shù)據(jù)科學(xué)家大約為22,500,而數(shù)據(jù)工程師大約為77,100(根據(jù)上個(gè)月發(fā)布的職位進(jìn)行過(guò)濾)。
不僅對(duì)數(shù)據(jù)工程師的需求很大,而且需求還在不斷增加!截至2019年6月,對(duì)數(shù)據(jù)工程師的需求同比增長(zhǎng)了 88% 。
5.即使您不想成為數(shù)據(jù)工程師也很重要
即使您不想從事數(shù)據(jù)工程師的職業(yè),但是如果您想從事數(shù)據(jù)科學(xué)工作,那么擁有一些數(shù)據(jù)工程知識(shí)也會(huì)非常有用。好處是多方面的:
a.作為數(shù)據(jù)從業(yè)者,很可能會(huì)定期要求您完成與其他工作角色(包括數(shù)據(jù)工程)有一些重疊的任務(wù)。
b.學(xué)習(xí)一種不同的看待事物的方式可能會(huì)有助于您的理解,并且使您有機(jī)會(huì)復(fù)習(xí)一下您一段時(shí)間未使用的技能。
c.具有工程技能將使您更加自給自足。這可以極大地幫助您的事業(yè),因?yàn)槟鸁o(wú)需再受阻,等待某人為您做某事。
d.學(xué)習(xí)數(shù)據(jù)工程技能將使您能夠同情數(shù)據(jù)工程師并更好地與他們溝通。這也將為您的團(tuán)隊(duì)提供幫助,因?yàn)槟梢猿蔀閷⒛膱F(tuán)隊(duì)與數(shù)據(jù)工程團(tuán)隊(duì)聯(lián)系起來(lái)的橋梁。
填寫下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!
?2007-2022/ mwtacok.cn 北京漫動(dòng)者數(shù)字科技有限公司 備案號(hào): 京ICP備12034770號(hào) 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc