旗下產(chǎn)業(yè): A產(chǎn)業(yè)/?A實(shí)習(xí)/?A計(jì)劃
全國(guó)統(tǒng)一咨詢熱線:010-5367 2995
首頁 > 熱門文章 > 大數(shù)據(jù)分析 > 大數(shù)據(jù)分析如何構(gòu)建數(shù)據(jù)湖

大數(shù)據(jù)分析如何構(gòu)建數(shù)據(jù)湖

時(shí)間:2019-11-15來源:mwtacok.cn點(diǎn)擊量:作者:Sissi
時(shí)間:2019-11-15點(diǎn)擊量:作者:Sissi



  建立可擴(kuò)展的事務(wù)數(shù)據(jù)湖的關(guān)鍵注意事項(xiàng),數(shù)據(jù)驅(qū)動(dòng)型公司正在利用云數(shù)據(jù)湖推動(dòng)快速的業(yè)務(wù)轉(zhuǎn)型。云數(shù)據(jù)湖正在啟用新的業(yè)務(wù)模型和近實(shí)時(shí)分析,以支持更好的決策。但是,隨著遷移到云數(shù)據(jù)湖的工作負(fù)載數(shù)量的增加,公司不得不解決數(shù)據(jù)管理問題,針對(duì)這個(gè)問題,AAA教育小編姐姐咨詢課程老師專業(yè)知識(shí)和大家分享出來。
 

  數(shù)據(jù)隱私法規(guī)以及對(duì)數(shù)據(jù)新鮮度和數(shù)據(jù)完整性的需求的結(jié)合,使得云數(shù)據(jù)湖在更新,刪除或合并數(shù)據(jù)時(shí)需要支持ACID事務(wù)。對(duì)于云數(shù)據(jù)湖,要解決此要求,需要考慮幾個(gè)體系結(jié)構(gòu)方面的考慮。這些是:
 

1、數(shù)據(jù)湖上的事務(wù)性
 

  數(shù)據(jù)湖不再用作冷數(shù)據(jù)存儲(chǔ),而是用作實(shí)時(shí)數(shù)據(jù)與數(shù)據(jù)倉(cāng)庫(kù)中熱數(shù)據(jù)相結(jié)合的臨時(shí)分析的來源。數(shù)據(jù)湖已經(jīng)有了長(zhǎng)足的發(fā)展,以使企業(yè)能夠使用商業(yè)智能儀表板或構(gòu)建人工智能功能獲得實(shí)時(shí)見解。為了構(gòu)建可支持這些擴(kuò)展用例的可靠分析平臺(tái),數(shù)據(jù)工程師需要一種機(jī)制來構(gòu)建:
 

  尺寸變化緩慢(類型I和類型II):這是任何大數(shù)據(jù)分析系統(tǒng)的常見要求,并且需要具有INSERT,UPDATE和UPSERT數(shù)據(jù)的功能
 

  數(shù)據(jù)重述:組織正在集成來自多種來源的數(shù)據(jù),這些來源包括事務(wù)性數(shù)據(jù)庫(kù),CRM,ERP,IoT和其他SaaS應(yīng)用程序,以及來自社交媒體的數(shù)據(jù)。這可能導(dǎo)致不正確或數(shù)據(jù)質(zhì)量差,需要在后續(xù)步驟中進(jìn)行糾正。依賴于這些數(shù)據(jù)的業(yè)務(wù)規(guī)則需要干凈,完整,準(zhǔn)確和最新的數(shù)據(jù),這進(jìn)一步增加了數(shù)據(jù)重述的重要性。
 

2、安全和隱私法規(guī)與合規(guī)性
 

  對(duì)“刪除權(quán)”或“被遺忘權(quán)”(RTBF)的新要求源于一系列新的且不斷擴(kuò)展的全球數(shù)據(jù)隱私法規(guī)。這些法規(guī)規(guī)范了消費(fèi)者對(duì)其數(shù)據(jù)的權(quán)利,并對(duì)不遵守規(guī)定的行為處以嚴(yán)厲的經(jīng)濟(jì)處罰。鑒于財(cái)務(wù)處罰是重大的(高達(dá)全球營(yíng)業(yè)額的4%),因此不能忽略。在確保業(yè)務(wù)連續(xù)性的同時(shí),滿足這些數(shù)據(jù)隱私和保護(hù)要求的企業(yè)面臨著挑戰(zhàn)。RTBF需要有針對(duì)性地刪除可能駐留在數(shù)據(jù)湖中并在有限時(shí)間內(nèi)存儲(chǔ)的特定數(shù)據(jù)(記錄,行或列)的功能。隨著數(shù)據(jù)湖中大量數(shù)據(jù)的擴(kuò)散,在不中斷現(xiàn)有數(shù)據(jù)管理流程的情況下刪除特定的數(shù)據(jù)子集具有挑戰(zhàn)性。盡管一些新的解決方案從各種供應(yīng)商處涌現(xiàn)出來,但并不是所有的解決方案都能滿足要求。因此,組織仍在構(gòu)建定制解決方案以滿足這些新法規(guī)。但是,作為大多數(shù)內(nèi)部構(gòu)建的解決方案,它們會(huì)帶來圍繞更新,維護(hù),可審核性等方面的問題。
 

大數(shù)據(jù)分析

3、更快的見識(shí)時(shí)間
 

  對(duì)“黃金標(biāo)準(zhǔn)”數(shù)據(jù)集的快速,交互式分析使用戶可以信任結(jié)果并縮短了解時(shí)間。快速讀取需要準(zhǔn)備好的數(shù)據(jù)和正確的分析引擎。數(shù)據(jù)工程師一直在問“什么是我的數(shù)據(jù)類型最好的數(shù)據(jù)格式?”和“什么文件和分區(qū)大小合適才能提高性能?”
 

4、更快的寫入時(shí)間
 

  當(dāng)涉及到完成寫入操作時(shí),典型的分布式系統(tǒng)除等待時(shí)間外還將承受額外的開銷。開銷來自于寫入云存儲(chǔ)之前寫入到暫存位置,或者更新整個(gè)分區(qū)而不是記錄。對(duì)總體性能的影響是巨大的,并且隨著組織開始大規(guī)模運(yùn)行數(shù)據(jù)湖而迅速成為主要問題。
 

5、數(shù)據(jù)一致性和完整性
 

  并發(fā)控制對(duì)于數(shù)據(jù)湖很重要,因?yàn)樗枰С侄鄠€(gè)用戶和應(yīng)用程序,并且沖突必將發(fā)生。例如,當(dāng)一個(gè)用戶想要從另一個(gè)文件或分區(qū)讀取文件或分區(qū)時(shí),它可以確保數(shù)據(jù)的一致性,完整性和可用性;或兩個(gè)要寫入同一文件或分區(qū)的用戶。因此,現(xiàn)代的數(shù)據(jù)湖體系結(jié)構(gòu)需要解決這種情況。還需要確保這些并發(fā)操作不會(huì)違反導(dǎo)致錯(cuò)誤結(jié)果的數(shù)據(jù)的完整性,準(zhǔn)確性和參照完整性。
 

6、為工作保留正確的計(jì)算引擎和云的選擇
 

  對(duì)洞察力和信息的需求的快速增長(zhǎng)導(dǎo)致幾乎每個(gè)企業(yè)收集和存儲(chǔ)的數(shù)據(jù)呈指數(shù)增長(zhǎng)。利用收集到的數(shù)據(jù)來改善客戶體驗(yàn)的戰(zhàn)略必要性要求企業(yè)采用可服務(wù)于當(dāng)今多個(gè)用例的數(shù)據(jù)架構(gòu),同時(shí)保留數(shù)據(jù)處理引擎,云基礎(chǔ)架構(gòu)和供應(yīng)商可移植性的選擇,以服務(wù)于未來的用例。
 

  1、在Qubole,我們將這些考慮因素放在了數(shù)據(jù)平臺(tái)設(shè)計(jì)的最前沿:
 

  2、它支持?jǐn)?shù)據(jù)湖上的完全事務(wù)性,而不管云(AWS,Azure或GCP)如何。
 

  3、它為刪除操作提供了內(nèi)置支持,使客戶能夠遵守已建立的SLA中“刪除權(quán)”的法規(guī)和隱私要求。
 

  4、可直接寫入云對(duì)象存儲(chǔ),從而消除了額外的開銷,同時(shí)以最佳性能保證了數(shù)據(jù)完整性。
 

  最重要的是,我們將繼續(xù)提供基于Hive事務(wù)表的ACID功能的完整實(shí)現(xiàn),從而使數(shù)據(jù)處理引擎(Apache Spark,Presto,Hive等)的選擇自由。
 

  最后,開源的Presto和Spark連接器,它們直接與Hive ACID表配合使用。



 

預(yù)約申請(qǐng)免費(fèi)試聽課

填寫下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!

?2007-2021/北京漫動(dòng)者教育科技有限公司版權(quán)所有
備案號(hào):京ICP備12034770號(hào)

?2007-2022/ mwtacok.cn 北京漫動(dòng)者數(shù)字科技有限公司 備案號(hào): 京ICP備12034770號(hào) 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc

京公網(wǎng)安備 11010802035704號(hào)

網(wǎng)站地圖