在過(guò)去的幾年中,您可能聽(tīng)說(shuō)過(guò)有人在某個(gè)地方使用“數(shù)據(jù)湖”一詞。隨著數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng),流數(shù)據(jù)起飛,非結(jié)構(gòu)化數(shù)據(jù)繼續(xù)使其結(jié)構(gòu)化的同類相形見(jiàn)絀,這一概念越來(lái)越受到關(guān)注。
什么是數(shù)據(jù)湖?它與傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)有何不同?AAA教育小編簡(jiǎn)單分析一下大數(shù)據(jù)分析數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別與聯(lián)系
一、傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)是什么
奇怪的是,在您職業(yè)生涯的某個(gè)時(shí)候,您遇到了數(shù)據(jù)倉(cāng)庫(kù),該工具已成為提取,轉(zhuǎn)換和加載(ETL)流程的代名詞。在較高級(jí)別上,數(shù)據(jù)倉(cāng)庫(kù)以高度規(guī)范的方式存儲(chǔ)大量結(jié)構(gòu)化數(shù)據(jù)。他們需要一個(gè)剛性的,預(yù)定義模式加載數(shù)據(jù)之前就存在。(幾乎總是星型或雪花型模式。)換句話說(shuō),數(shù)據(jù)倉(cāng)庫(kù)中的模式是“寫時(shí)”定義的。ETL流程應(yīng)盡其所能踢出錯(cuò)誤報(bào)告,生成日志,并將錯(cuò)誤的記錄發(fā)送到要處理的異常文件和excel表中。在以后的日子。
由于這種剛性及其工作方式,數(shù)據(jù)倉(cāng)庫(kù)支持部分或增量ETL。換句話說(shuō)(根據(jù)問(wèn)題的嚴(yán)重性),組織可以在出現(xiàn)問(wèn)題時(shí)加載或重新加載其數(shù)據(jù)倉(cāng)庫(kù)的某些部分。
組織通常會(huì)定期填充數(shù)據(jù)倉(cāng)庫(kù)。一般而言,數(shù)據(jù)會(huì)定期更新(例如,每天早上3點(diǎn),當(dāng)員工不太可能訪問(wèn)數(shù)據(jù)和下游系統(tǒng)時(shí))。員工第二天使用最新壓縮的數(shù)據(jù)上班。
可以肯定的是,存儲(chǔ)在傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)在今天仍然有價(jià)值。盡管如此,組織及其領(lǐng)導(dǎo)者仍需要開(kāi)始重新考慮當(dāng)代數(shù)據(jù)集成??紤]一下物聯(lián)網(wǎng)及其實(shí)現(xiàn)的分析。車輛,農(nóng)用設(shè)備,可穿戴設(shè)備,恒溫器甚至農(nóng)作物上的傳感器會(huì)產(chǎn)生大量連續(xù)流的數(shù)據(jù)。最好的選擇是,即使是具有行業(yè)實(shí)力的數(shù)據(jù)倉(cāng)庫(kù)也將面臨這些新數(shù)據(jù)流的困擾。
二、數(shù)據(jù)湖的崛起
在這種背景下,我們已經(jīng)看到了數(shù)據(jù)湖的流行性上升。沒(méi)錯(cuò):它不是數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市的同義詞。是的,所有這些實(shí)體都存儲(chǔ)數(shù)據(jù),但是數(shù)據(jù)湖在以下方面根本不同。數(shù)據(jù)湖的想法是為原始數(shù)據(jù)提供原始數(shù)據(jù)的休息場(chǎng)所,直到需要它為止。數(shù)據(jù)處于休眠狀態(tài),除非并且直到有人或某物需要它。
在訪問(wèn)數(shù)據(jù)湖時(shí),用戶確定:
他們需要的特定數(shù)據(jù)類型和來(lái)源。
他們需要多少。
當(dāng)他們需要它時(shí)。
他們需要派生的分析類型。
所有這些都可能在數(shù)據(jù)倉(cāng)庫(kù)中嗎?可能不是。而且即使有可能,也不太可能在業(yè)務(wù)用戶認(rèn)為可以接受的時(shí)間內(nèi)實(shí)現(xiàn)這些目標(biāo)-尤其是在當(dāng)今瞬息萬(wàn)變的環(huán)境中。除此之外,幾乎可以肯定一個(gè)特定的架構(gòu)不能滿足所有業(yè)務(wù)需求。最終,數(shù)據(jù)可能最終以某種方式到達(dá),使其實(shí)際上對(duì)于員工的發(fā)展目的毫無(wú)用處。
因此,數(shù)據(jù)湖架構(gòu)被定義為“讀取時(shí)”。換句話說(shuō),數(shù)據(jù)湖仍需要一個(gè)架構(gòu)。但是,該架構(gòu)不是預(yù)定義的。這是臨時(shí)的。當(dāng)用戶將數(shù)據(jù)從存儲(chǔ)位置中拉出時(shí),數(shù)據(jù)將應(yīng)用到計(jì)劃或方案中-而不是隨其進(jìn)入。數(shù)據(jù)湖將數(shù)據(jù)保持在其未更改(自然)狀態(tài);除非并且直到用戶查詢數(shù)據(jù),它才定義需求。
如果使用正確,數(shù)據(jù)湖將為業(yè)務(wù)和技術(shù)用戶提供查詢更小,更相關(guān)和更靈活的數(shù)據(jù)集的能力。結(jié)果,查詢時(shí)間可以減少到數(shù)據(jù)集市,數(shù)據(jù)倉(cāng)庫(kù)或關(guān)系數(shù)據(jù)庫(kù)中的時(shí)間的一小部分。
1、數(shù)據(jù)湖的靈活性提高
數(shù)據(jù)湖強(qiáng)調(diào)數(shù)據(jù)的靈活性和可用性。這樣,它可以為用戶和下游應(yīng)用程序提供無(wú)模式的數(shù)據(jù)。也就是說(shuō),無(wú)論其來(lái)源如何,都類似于其“自然”或原始格式的數(shù)據(jù)。
盡管評(píng)審團(tuán)還沒(méi)有成立,但許多(如果不是大多數(shù))數(shù)據(jù)湖應(yīng)用程序不支持部分或增量加載。(通過(guò)這種方式,數(shù)據(jù)湖不同于數(shù)據(jù)倉(cāng)庫(kù)。)組織無(wú)法將其部分?jǐn)?shù)據(jù)加載或重新加載到數(shù)據(jù)湖中。它往往是全部或全部。
2、數(shù)據(jù)湖類比
如果您仍在努力處理數(shù)據(jù)湖的概念,那么下面的類比可能會(huì)澄清問(wèn)題??梢詫?shù)據(jù)集市或數(shù)據(jù)倉(cāng)庫(kù)看作是裝滿瓶裝水的存儲(chǔ)設(shè)施。這些案件并不僅僅是一夜之間神奇地出現(xiàn)。人和機(jī)器收集并凈化了水。包裝后,才可以供人們購(gòu)買和飲用。
相比之下,可以將數(shù)據(jù)湖視為大量天然水,只有在渴死時(shí)才可以喝。如果您需要50加侖的水滅火,則無(wú)需購(gòu)買瓶裝水并將它們逐一倒空。一切都準(zhǔn)備就緒。
按照這種類比,數(shù)據(jù)湖中的“水”來(lái)自許多地方:河流,支流和瀑布。也就是說(shuō),數(shù)據(jù)湖不只容納一種水(即數(shù)據(jù))。數(shù)據(jù)湖可以容納所有類型的數(shù)據(jù):結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化。但是請(qǐng)注意,用結(jié)構(gòu)化數(shù)據(jù)填充數(shù)據(jù)湖意味著它至少會(huì)丟失其某些結(jié)構(gòu),并且-您猜到了-其某些價(jià)值。為此,如果你只是對(duì)結(jié)構(gòu)化數(shù)據(jù)感興趣,數(shù)據(jù)倉(cāng)庫(kù)可能仍然是你最好的選擇。
在我看來(lái),毫無(wú)疑問(wèn),數(shù)據(jù)湖將在未來(lái)的數(shù)據(jù)管理中占據(jù)越來(lái)越重要的位置。
1、關(guān)于數(shù)據(jù)湖的兩種思想流派
因?yàn)閿?shù)據(jù)湖現(xiàn)在還處于早期階段,今天的數(shù)據(jù)湖泊的意見(jiàn)是什么,在較高的層次上,有兩種思想流派。一組視圖中的數(shù)據(jù)湖為不僅是重要的,而且還必須為數(shù)據(jù)驅(qū)動(dòng)的公司。該小組了解現(xiàn)代數(shù)據(jù)倉(cāng)庫(kù)的局限性-原則上講,它們并不是為處理大量非結(jié)構(gòu)化數(shù)據(jù)流而構(gòu)建的。此外,“寫時(shí)”和“讀時(shí)”之間的區(qū)別不僅僅是語(yǔ)義上的問(wèn)題。相反,后者使響應(yīng)時(shí)間大大加快,并且擴(kuò)展了分析能力。
這是一種觀點(diǎn),我碰巧同意這一觀點(diǎn)。公平地說(shuō),我們?cè)谶@里還沒(méi)有達(dá)成行業(yè)共識(shí)–距離它還很遠(yuǎn)。數(shù)據(jù)湖的懷疑論者并不害羞。憤世嫉俗的人把數(shù)據(jù)湖看成是流行語(yǔ),或者是在游戲中占有重要地位的軟件供應(yīng)商的炒作。此外,有些人認(rèn)為數(shù)據(jù)湖是舊概念的新名稱,但對(duì)企業(yè)的適用性有限。
除了圍繞該主題的合理混亂外,很少有人以一致的方式使用“數(shù)據(jù)湖”一詞。有些人稱任何數(shù)據(jù)準(zhǔn)備,存儲(chǔ)或發(fā)現(xiàn)環(huán)境為數(shù)據(jù)湖。
2、與Hadoop和關(guān)系數(shù)據(jù)庫(kù)并行
在概念化對(duì)數(shù)據(jù)湖的需求時(shí),也許最好考慮一下Hadoop –越來(lái)越多的組織正在采用的開(kāi)源,分布式文件系統(tǒng)。Hadoop成長(zhǎng)的原因很多,其中最重要的一點(diǎn)是它滿足了關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)無(wú)法滿足的真正需求。公平地講,它的開(kāi)源性質(zhì),容錯(cuò)能力和并行處理也位居榜首。
RDBMS根本不是設(shè)計(jì)來(lái)處理千兆字節(jié)或PB級(jí)的非結(jié)構(gòu)化數(shù)據(jù)。嘗試將數(shù)千張照片,視頻,推文,文章和電子郵件加載到傳統(tǒng)的SQL Server或Oracle數(shù)據(jù)庫(kù)中,并運(yùn)行報(bào)告或編寫SQL語(yǔ)句。祝你好運(yùn)。
幾十年來(lái),數(shù)據(jù)倉(cāng)庫(kù)甚至可以很好地處理大量結(jié)構(gòu)化數(shù)據(jù):?jiǎn)T工列表,銷售,交易等。他們提供了無(wú)數(shù)的商業(yè)智能和企業(yè)報(bào)告應(yīng)用程序。但是,期望那些相同的數(shù)據(jù)倉(cāng)庫(kù)有效地處理根本不同的數(shù)據(jù)量,速度和類型是不合理的。
3、關(guān)于元數(shù)據(jù)的注釋
數(shù)據(jù)湖依賴于本體和元數(shù)據(jù)來(lái)從加載到它們中的數(shù)據(jù)中獲取意義。同樣,方法也有所不同。但是一般來(lái)說(shuō),湖泊中的每個(gè)數(shù)據(jù)元素都繼承一個(gè)唯一的標(biāo)識(shí)符,該標(biāo)識(shí)符分配有大量的元數(shù)據(jù)(標(biāo)簽)。結(jié)論:數(shù)據(jù)湖將繼續(xù)存在。
4、數(shù)據(jù)湖的光明前景
在我看來(lái),毫無(wú)疑問(wèn),數(shù)據(jù)湖將在未來(lái)的數(shù)據(jù)管理中占據(jù)越來(lái)越重要的位置。組織將繼續(xù)將“小”數(shù)據(jù)與其大數(shù)據(jù)集成在一起,愚蠢的是他們相信一個(gè)應(yīng)用程序(無(wú)論多么昂貴或強(qiáng)大)都能處理所有事情。
當(dāng)出現(xiàn)業(yè)務(wù)問(wèn)題時(shí),用戶將比傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和報(bào)告支持者所能提供的更快地更快地需要答案。如果使用得當(dāng),數(shù)據(jù)湖可讓用戶分析較小的數(shù)據(jù)集并快速回答關(guān)鍵問(wèn)題。
填寫下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽(tīng)!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!
?2007-2022/ mwtacok.cn 北京漫動(dòng)者數(shù)字科技有限公司 備案號(hào): 京ICP備12034770號(hào) 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc