最近總有同學(xué)們?cè)诰W(wǎng)絡(luò)上問大數(shù)據(jù)分析的意義和價(jià)值是什么,我找大數(shù)據(jù)分析培訓(xùn)課程的老師深入了解了一下并拿來了一些干貨,將這個(gè)問題分享出來,讓大家不再疑惑大數(shù)據(jù)分析的模樣。
大數(shù)據(jù)分析提供了幾乎無窮無盡的業(yè)務(wù)和信息洞察力資源,可導(dǎo)致運(yùn)營(yíng)改善和新的機(jī)會(huì),使公司能夠在幾乎每個(gè)行業(yè)提供未實(shí)現(xiàn)的收入。從客戶個(gè)性化的用例,到降低風(fēng)險(xiǎn),欺詐檢測(cè),內(nèi)部運(yùn)營(yíng)分析,以及幾乎每天都會(huì)出現(xiàn)的所有其他新用例,公司數(shù)據(jù)中隱藏的價(jià)值使公司希望創(chuàng)建前沿的分析業(yè)務(wù)。
在原始數(shù)據(jù)中發(fā)現(xiàn)價(jià)值給IT團(tuán)隊(duì)帶來了許多挑戰(zhàn)。每個(gè)公司都有不同的需求和不同的數(shù)據(jù)資產(chǎn)。在不斷發(fā)展的市場(chǎng)中,業(yè)務(wù)計(jì)劃會(huì)快速變化,并且與新指令保持一致可能需要敏捷性和可伸縮性。最重要的是,成功的大數(shù)據(jù)分析操作需要大量的計(jì)算資源,技術(shù)基礎(chǔ)架構(gòu)和高技能的人員。
所有這些挑戰(zhàn)都可能導(dǎo)致許多操作在交付價(jià)值之前失敗。過去,由于缺乏計(jì)算能力和自動(dòng)化功能,因此無法進(jìn)行真正的生產(chǎn)規(guī)模分析操作,這超出了大多數(shù)公司的能力:大數(shù)據(jù)太昂貴,麻煩太多且沒有明顯的投資回報(bào)率。隨著云計(jì)算的興起以及計(jì)算資源管理中的新技術(shù)的出現(xiàn),大數(shù)據(jù)分析工具的訪問比以往任何時(shí)候都更加容易。
一、大數(shù)據(jù)分析的由來
在許多早期的互聯(lián)網(wǎng)和技術(shù)公司的推動(dòng)下,大數(shù)據(jù)出現(xiàn)于2000年代初的數(shù)據(jù)繁榮時(shí)期。軟件和硬件功能有史以來第一次可以跟上消費(fèi)者產(chǎn)生的大量非結(jié)構(gòu)化信息。搜索引擎,移動(dòng)設(shè)備和工業(yè)機(jī)器等新技術(shù)提供了公司可以處理的盡可能多的數(shù)據(jù),而且規(guī)模還在不斷增長(zhǎng)。
隨著可收集數(shù)據(jù)的天文數(shù)字增長(zhǎng),很快變得很明顯,傳統(tǒng)數(shù)據(jù)技術(shù)(例如數(shù)據(jù)倉(cāng)庫(kù)和關(guān)系數(shù)據(jù)庫(kù))不適合與大量非結(jié)構(gòu)化數(shù)據(jù)一起使用。早期的大數(shù)據(jù)創(chuàng)新項(xiàng)目是由Apache軟件基金會(huì)(Apache Software Foundation)開源的,其中最重要的貢獻(xiàn)來自Google,Yahoo,F(xiàn)acebook,IBM,學(xué)術(shù)界等。一些使用最廣泛的引擎是:
Apache Hive / Hadoop是用于復(fù)雜ETL和數(shù)據(jù)準(zhǔn)備的主力軍,可將信息提供給許多分析環(huán)境或數(shù)據(jù)存儲(chǔ)以進(jìn)行進(jìn)一步分析。
Apache Spark(由加州大學(xué)伯克利分校開發(fā))通常用于繁重的計(jì)算工作,這些工作通常是批處理ETL和ML工作負(fù)載,但也與Apache Kafka等技術(shù)結(jié)合使用。
Presto是一個(gè)SQL引擎,可快速可靠地發(fā)布報(bào)表和臨時(shí)分析。
大數(shù)據(jù)分析典型部署圖
二、大數(shù)據(jù)分析的商業(yè)價(jià)值
隨著數(shù)據(jù)呈指數(shù)增長(zhǎng),企業(yè)需要不斷擴(kuò)展其基礎(chǔ)架構(gòu)以最大化數(shù)據(jù)的經(jīng)濟(jì)價(jià)值。在大數(shù)據(jù)的早期(大約2008年),當(dāng)Hadoop首次獲得大型企業(yè)的認(rèn)可時(shí),站起一個(gè)有用的生產(chǎn)系統(tǒng)極其昂貴且效率低下。使用大數(shù)據(jù)還意味著需要合適的人員和軟件技術(shù),以及用于處理數(shù)據(jù)和查詢速度的硬件。對(duì)齊所有內(nèi)容以使其同步運(yùn)行是一項(xiàng)極其艱巨的任務(wù),并導(dǎo)致許多大數(shù)據(jù)項(xiàng)目失敗。
如今,云計(jì)算已經(jīng)變成了一個(gè)改變市場(chǎng)的趨勢(shì),因?yàn)闊o論規(guī)模大小,企業(yè)都可以通過單擊幾下即時(shí)訪問基礎(chǔ)架構(gòu)和高級(jí)技術(shù)。這是云提供了一個(gè)強(qiáng)大的基礎(chǔ)架構(gòu),使公司能夠超越現(xiàn)有系統(tǒng)發(fā)展的地方:
1、 數(shù)量
信息在增長(zhǎng),數(shù)據(jù)具有有效期,擁有便宜的云存儲(chǔ)使公司可以處理大量數(shù)據(jù),而不必?fù)?dān)心什么是有價(jià)值的和不有價(jià)值的。
2、 種類繁多
對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析的需求正在增長(zhǎng),這推動(dòng)了對(duì)諸如深度學(xué)習(xí)之類的不同框架進(jìn)行處理的需求。臨時(shí)云計(jì)算服務(wù)器使公司可以針對(duì)同一數(shù)據(jù)反復(fù)測(cè)試不同的大數(shù)據(jù)引擎。
3、 速度
分析問題的復(fù)雜性需要幾步大數(shù)據(jù)(例如,機(jī)器學(xué)習(xí)估計(jì)占計(jì)算資源的ETL約80%),云計(jì)算公司可以根據(jù)需求擴(kuò)大/縮小規(guī)模。
4、 價(jià)值
對(duì)AI驅(qū)動(dòng)的應(yīng)用程序的需求推動(dòng)了對(duì)現(xiàn)代大數(shù)據(jù)架構(gòu)的需求,該架構(gòu)允許應(yīng)用程序,存儲(chǔ)和計(jì)算資源分別進(jìn)行橫向擴(kuò)展。
三、 大數(shù)據(jù)分析與商業(yè)智能
商業(yè)智能通常被稱為大數(shù)據(jù)分析的四個(gè)步驟的前兩個(gè)描述和診斷階段。BI通常托管在一個(gè)數(shù)據(jù)倉(cāng)庫(kù)中,在該倉(cāng)庫(kù)中,數(shù)據(jù)本質(zhì)上是結(jié)構(gòu)化的,并且僅說明發(fā)生了什么“事情,地點(diǎn)和方式”。該數(shù)據(jù)通常用于報(bào)告和收集基于最近事件的流行趨勢(shì)和互動(dòng)的見解。
大數(shù)據(jù)分析更進(jìn)一步,因?yàn)樵摷夹g(shù)可以訪問各種結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集(例如用戶行為或圖像)。大數(shù)據(jù)分析工具可以將這些數(shù)據(jù)與歷史信息結(jié)合起來,根據(jù)過去的經(jīng)驗(yàn)來確定事件發(fā)生的可能性。
四、為什么要用大數(shù)據(jù)分析
在過去十年中,4 V已成為大數(shù)據(jù)分析發(fā)展的眾所周知的催化劑。此外,我們進(jìn)入了一個(gè)新時(shí)代,新挑戰(zhàn)不斷發(fā)展,例如開源技術(shù)的“多樣性”,機(jī)器學(xué)習(xí)用例以及大數(shù)據(jù)生態(tài)系統(tǒng)的快速發(fā)展。這些增加了圍繞著如何與不斷增長(zhǎng)的信息,跟上新的挑戰(zhàn),同時(shí)平衡如何保證在這樣一個(gè)嘈雜的環(huán)境中的高級(jí)分析的有效性。
預(yù)測(cè)性和規(guī)范性分析處于過渡狀態(tài),并且需要傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)無法提供服務(wù)的現(xiàn)代基礎(chǔ)架構(gòu)。擁有一個(gè)大數(shù)據(jù)平臺(tái),使團(tuán)隊(duì)可以通過適當(dāng)?shù)淖灾?wù)訪問非結(jié)構(gòu)化數(shù)據(jù),從而使公司可以進(jìn)行更具創(chuàng)新性的數(shù)據(jù)操作。
描述性分析(發(fā)生的時(shí)間) –在傳統(tǒng)的商業(yè)智能和報(bào)告分析中很常見。
診斷分析(在何處以及如何發(fā)生) –使商務(wù)智能更進(jìn)一步,可以向最終用戶提供報(bào)告或根據(jù)數(shù)據(jù)結(jié)果向他們發(fā)送一系列操作。
預(yù)測(cè)分析(會(huì)發(fā)生什么以及如何) -當(dāng)一個(gè)模型應(yīng)用于數(shù)據(jù),并作出決定或概率得分是基于歷史事件給出。該數(shù)據(jù)也可飼喂未來決策回到商業(yè)智能系統(tǒng)來幫助。
規(guī)范分析(我們應(yīng)該做什么) –獲取數(shù)據(jù)的預(yù)測(cè)輸出,并將其放入實(shí)用的應(yīng)用程序中,以提出建議或向最終用戶發(fā)出警報(bào)(例如欺詐檢測(cè)或電子商務(wù)購(gòu)物)。通常需要將這些數(shù)據(jù)放入一個(gè)數(shù)據(jù)集市,該數(shù)據(jù)集市可以近乎實(shí)時(shí)地提供給應(yīng)用程序。
填寫下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!
?2007-2022/ mwtacok.cn 北京漫動(dòng)者數(shù)字科技有限公司 備案號(hào): 京ICP備12034770號(hào) 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc