旗下產(chǎn)業(yè): A產(chǎn)業(yè)/?A實(shí)習(xí)/?A計(jì)劃
全國(guó)統(tǒng)一咨詢熱線:010-5367 2995
首頁(yè) > 熱門文章 > 大數(shù)據(jù)分析 > 大數(shù)據(jù)分析數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別與聯(lián)系

大數(shù)據(jù)分析數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別與聯(lián)系

時(shí)間:2019-11-04來(lái)源:mwtacok.cn點(diǎn)擊量:作者:Sissi
時(shí)間:2019-11-04點(diǎn)擊量:作者:Sissi





  在過(guò)去的幾年中,您可能聽(tīng)說(shuō)過(guò)有人在某個(gè)地方使用“數(shù)據(jù)湖”一詞。隨著數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng),流數(shù)據(jù)起飛,非結(jié)構(gòu)化數(shù)據(jù)繼續(xù)使其結(jié)構(gòu)化的同類相形見(jiàn)絀,這一概念越來(lái)越受到關(guān)注。
 

  什么是數(shù)據(jù)湖?它與傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)有何不同?AAA教育小編簡(jiǎn)單分析一下大數(shù)據(jù)分析數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別與聯(lián)系
 

一、傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)是什么
 

  奇怪的是,在您職業(yè)生涯的某個(gè)時(shí)候,您遇到了數(shù)據(jù)倉(cāng)庫(kù),該工具已成為提取,轉(zhuǎn)換和加載(ETL)流程的代名詞。在較高級(jí)別上,數(shù)據(jù)倉(cāng)庫(kù)以高度規(guī)范的方式存儲(chǔ)大量結(jié)構(gòu)化數(shù)據(jù)。他們需要一個(gè)剛性的,預(yù)定義模式加載數(shù)據(jù)之前就存在。(幾乎總是星型或雪花型模式。)換句話說(shuō),數(shù)據(jù)倉(cāng)庫(kù)中的模式是“寫時(shí)”定義的。ETL流程應(yīng)盡其所能踢出錯(cuò)誤報(bào)告,生成日志,并將錯(cuò)誤的記錄發(fā)送到要處理的異常文件和excel表中。在以后的日子。
 

  由于這種剛性及其工作方式,數(shù)據(jù)倉(cāng)庫(kù)支持部分或增量ETL。換句話說(shuō)(根據(jù)問(wèn)題的嚴(yán)重性),組織可以在出現(xiàn)問(wèn)題時(shí)加載或重新加載其數(shù)據(jù)倉(cāng)庫(kù)的某些部分。
 

  組織通常會(huì)定期填充數(shù)據(jù)倉(cāng)庫(kù)。一般而言,數(shù)據(jù)會(huì)定期更新(例如,每天早上3點(diǎn),當(dāng)員工不太可能訪問(wèn)數(shù)據(jù)和下游系統(tǒng)時(shí))。員工第二天使用最新壓縮的數(shù)據(jù)上班。
 

  可以肯定的是,存儲(chǔ)在傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)在今天仍然有價(jià)值。盡管如此,組織及其領(lǐng)導(dǎo)者仍需要開(kāi)始重新考慮當(dāng)代數(shù)據(jù)集成??紤]一下物聯(lián)網(wǎng)及其實(shí)現(xiàn)的分析。車輛,農(nóng)用設(shè)備,可穿戴設(shè)備,恒溫器甚至農(nóng)作物上的傳感器會(huì)產(chǎn)生大量連續(xù)流的數(shù)據(jù)。最好的選擇是,即使是具有行業(yè)實(shí)力的數(shù)據(jù)倉(cāng)庫(kù)也將面臨這些新數(shù)據(jù)流的困擾。

 

大數(shù)據(jù)分析

二、數(shù)據(jù)湖的崛起
 

  在這種背景下,我們已經(jīng)看到了數(shù)據(jù)湖的流行性上升。沒(méi)錯(cuò):它不是數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市的同義詞。是的,所有這些實(shí)體都存儲(chǔ)數(shù)據(jù),但是數(shù)據(jù)湖在以下方面根本不同。數(shù)據(jù)湖的想法是為原始數(shù)據(jù)提供原始數(shù)據(jù)的休息場(chǎng)所,直到需要它為止。數(shù)據(jù)處于休眠狀態(tài),除非并且直到有人或某物需要它。
 

  在訪問(wèn)數(shù)據(jù)湖時(shí),用戶確定:
 

  他們需要的特定數(shù)據(jù)類型和來(lái)源。
 

  他們需要多少。
 

  當(dāng)他們需要它時(shí)。
 

  他們需要派生的分析類型。
 

  所有這些都可能在數(shù)據(jù)倉(cāng)庫(kù)中嗎?可能不是。而且即使有可能,也不太可能在業(yè)務(wù)用戶認(rèn)為可以接受的時(shí)間內(nèi)實(shí)現(xiàn)這些目標(biāo)-尤其是在當(dāng)今瞬息萬(wàn)變的環(huán)境中。除此之外,幾乎可以肯定一個(gè)特定的架構(gòu)不能滿足所有業(yè)務(wù)需求。最終,數(shù)據(jù)可能最終以某種方式到達(dá),使其實(shí)際上對(duì)于員工的發(fā)展目的毫無(wú)用處。
 

  因此,數(shù)據(jù)湖架構(gòu)被定義為“讀取時(shí)”。換句話說(shuō),數(shù)據(jù)湖仍需要一個(gè)架構(gòu)。但是,該架構(gòu)不是預(yù)定義的。這是臨時(shí)的。當(dāng)用戶將數(shù)據(jù)從存儲(chǔ)位置中拉出時(shí),數(shù)據(jù)將應(yīng)用到計(jì)劃或方案中-而不是隨其進(jìn)入。數(shù)據(jù)湖將數(shù)據(jù)保持在其未更改(自然)狀態(tài);除非并且直到用戶查詢數(shù)據(jù),它才定義需求。
 

  如果使用正確,數(shù)據(jù)湖將為業(yè)務(wù)和技術(shù)用戶提供查詢更小,更相關(guān)和更靈活的數(shù)據(jù)集的能力。結(jié)果,查詢時(shí)間可以減少到數(shù)據(jù)集市,數(shù)據(jù)倉(cāng)庫(kù)或關(guān)系數(shù)據(jù)庫(kù)中的時(shí)間的一小部分。
 

  1、數(shù)據(jù)湖的靈活性提高
 

  數(shù)據(jù)湖強(qiáng)調(diào)數(shù)據(jù)的靈活性和可用性。這樣,它可以為用戶和下游應(yīng)用程序提供無(wú)模式的數(shù)據(jù)。也就是說(shuō),無(wú)論其來(lái)源如何,都類似于其“自然”或原始格式的數(shù)據(jù)。
 

  盡管評(píng)審團(tuán)還沒(méi)有成立,但許多(如果不是大多數(shù))數(shù)據(jù)湖應(yīng)用程序不支持部分或增量加載。(通過(guò)這種方式,數(shù)據(jù)湖不同于數(shù)據(jù)倉(cāng)庫(kù)。)組織無(wú)法將其部分?jǐn)?shù)據(jù)加載或重新加載到數(shù)據(jù)湖中。它往往是全部或全部。
 

  2、數(shù)據(jù)湖類比
 

  如果您仍在努力處理數(shù)據(jù)湖的概念,那么下面的類比可能會(huì)澄清問(wèn)題??梢詫?shù)據(jù)集市或數(shù)據(jù)倉(cāng)庫(kù)看作是裝滿瓶裝水的存儲(chǔ)設(shè)施。這些案件并不僅僅是一夜之間神奇地出現(xiàn)。人和機(jī)器收集并凈化了水。包裝后,才可以供人們購(gòu)買和飲用。
 

  相比之下,可以將數(shù)據(jù)湖視為大量天然水,只有在渴死時(shí)才可以喝。如果您需要50加侖的水滅火,則無(wú)需購(gòu)買瓶裝水并將它們逐一倒空。一切都準(zhǔn)備就緒。
 

  按照這種類比,數(shù)據(jù)湖中的“水”來(lái)自許多地方:河流,支流和瀑布。也就是說(shuō),數(shù)據(jù)湖不只容納一種水(即數(shù)據(jù))。數(shù)據(jù)湖可以容納所有類型的數(shù)據(jù):結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化。但是請(qǐng)注意,用結(jié)構(gòu)化數(shù)據(jù)填充數(shù)據(jù)湖意味著它至少會(huì)丟失其某些結(jié)構(gòu),并且-您猜到了-其某些價(jià)值。為此,如果你只是對(duì)結(jié)構(gòu)化數(shù)據(jù)感興趣,數(shù)據(jù)倉(cāng)庫(kù)可能仍然是你最好的選擇。
 

  在我看來(lái),毫無(wú)疑問(wèn),數(shù)據(jù)湖將在未來(lái)的數(shù)據(jù)管理中占據(jù)越來(lái)越重要的位置。
 

  1、關(guān)于數(shù)據(jù)湖的兩種思想流派
 

  因?yàn)閿?shù)據(jù)湖現(xiàn)在還處于早期階段,今天的數(shù)據(jù)湖泊的意見(jiàn)是什么,在較高的層次上,有兩種思想流派。一組視圖中的數(shù)據(jù)湖為不僅是重要的,而且還必須為數(shù)據(jù)驅(qū)動(dòng)的公司。該小組了解現(xiàn)代數(shù)據(jù)倉(cāng)庫(kù)的局限性-原則上講,它們并不是為處理大量非結(jié)構(gòu)化數(shù)據(jù)流而構(gòu)建的。此外,“寫時(shí)”和“讀時(shí)”之間的區(qū)別不僅僅是語(yǔ)義上的問(wèn)題。相反,后者使響應(yīng)時(shí)間大大加快,并且擴(kuò)展了分析能力。
 

  這是一種觀點(diǎn),我碰巧同意這一觀點(diǎn)。公平地說(shuō),我們?cè)谶@里還沒(méi)有達(dá)成行業(yè)共識(shí)–距離它還很遠(yuǎn)。數(shù)據(jù)湖的懷疑論者并不害羞。憤世嫉俗的人把數(shù)據(jù)湖看成是流行語(yǔ),或者是在游戲中占有重要地位的軟件供應(yīng)商的炒作。此外,有些人認(rèn)為數(shù)據(jù)湖是舊概念的新名稱,但對(duì)企業(yè)的適用性有限。
 

  除了圍繞該主題的合理混亂外,很少有人以一致的方式使用“數(shù)據(jù)湖”一詞。有些人稱任何數(shù)據(jù)準(zhǔn)備,存儲(chǔ)或發(fā)現(xiàn)環(huán)境為數(shù)據(jù)湖。
 

  2、與Hadoop和關(guān)系數(shù)據(jù)庫(kù)并行
 

  在概念化對(duì)數(shù)據(jù)湖的需求時(shí),也許最好考慮一下Hadoop –越來(lái)越多的組織正在采用的開(kāi)源,分布式文件系統(tǒng)。Hadoop成長(zhǎng)的原因很多,其中最重要的一點(diǎn)是它滿足了關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)無(wú)法滿足的真正需求。公平地講,它的開(kāi)源性質(zhì),容錯(cuò)能力和并行處理也位居榜首。
 

  RDBMS根本不是設(shè)計(jì)來(lái)處理千兆字節(jié)或PB級(jí)的非結(jié)構(gòu)化數(shù)據(jù)。嘗試將數(shù)千張照片,視頻,推文,文章和電子郵件加載到傳統(tǒng)的SQL Server或Oracle數(shù)據(jù)庫(kù)中,并運(yùn)行報(bào)告或編寫SQL語(yǔ)句。祝你好運(yùn)。
 

  幾十年來(lái),數(shù)據(jù)倉(cāng)庫(kù)甚至可以很好地處理大量結(jié)構(gòu)化數(shù)據(jù):?jiǎn)T工列表,銷售,交易等。他們提供了無(wú)數(shù)的商業(yè)智能和企業(yè)報(bào)告應(yīng)用程序。但是,期望那些相同的數(shù)據(jù)倉(cāng)庫(kù)有效地處理根本不同的數(shù)據(jù)量,速度和類型是不合理的。
 

  3、關(guān)于元數(shù)據(jù)的注釋
 

  數(shù)據(jù)湖依賴于本體和元數(shù)據(jù)來(lái)從加載到它們中的數(shù)據(jù)中獲取意義。同樣,方法也有所不同。但是一般來(lái)說(shuō),湖泊中的每個(gè)數(shù)據(jù)元素都繼承一個(gè)唯一的標(biāo)識(shí)符,該標(biāo)識(shí)符分配有大量的元數(shù)據(jù)(標(biāo)簽)。結(jié)論:數(shù)據(jù)湖將繼續(xù)存在。
 

  4、數(shù)據(jù)湖的光明前景
 

  在我看來(lái),毫無(wú)疑問(wèn),數(shù)據(jù)湖將在未來(lái)的數(shù)據(jù)管理中占據(jù)越來(lái)越重要的位置。組織將繼續(xù)將“小”數(shù)據(jù)與其大數(shù)據(jù)集成在一起,愚蠢的是他們相信一個(gè)應(yīng)用程序(無(wú)論多么昂貴或強(qiáng)大)都能處理所有事情。
 

  當(dāng)出現(xiàn)業(yè)務(wù)問(wèn)題時(shí),用戶將比傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和報(bào)告支持者所能提供的更快地更快地需要答案。如果使用得當(dāng),數(shù)據(jù)湖可讓用戶分析較小的數(shù)據(jù)集并快速回答關(guān)鍵問(wèn)題。



 

預(yù)約申請(qǐng)免費(fèi)試聽(tīng)課

填寫下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽(tīng)!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!

?2007-2021/北京漫動(dòng)者教育科技有限公司版權(quán)所有
備案號(hào):京ICP備12034770號(hào)

?2007-2022/ mwtacok.cn 北京漫動(dòng)者數(shù)字科技有限公司 備案號(hào): 京ICP備12034770號(hào) 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc

京公網(wǎng)安備 11010802035704號(hào)

網(wǎng)站地圖