最近寫了好多大數(shù)據(jù)分析的文章,《大數(shù)據(jù)分析十八般工具》、《剖析大數(shù)據(jù)分析就業(yè)前景》、《大數(shù)據(jù)分析是什么》、《大數(shù)據(jù)分析12大就業(yè)方向》等,好多同學(xué)問我大數(shù)據(jù)分析流程是什么,要小編姐姐整理一下,分享出來,今天我們就說說大數(shù)據(jù)分析流程是什么?
1.1 數(shù)據(jù)處理流程
該項(xiàng)目是一個純粹的大數(shù)據(jù)分析項(xiàng)目,其整體流程基本上就是依據(jù)數(shù)據(jù)的處理流程進(jìn)行,依此有以下幾個大的步驟:
1) 數(shù)據(jù)采集
首先,通過頁面嵌入JS代碼的方式獲取用戶訪問行為,并發(fā)送到web服務(wù)的后臺記錄日志;然后,將各服務(wù)器上生成的點(diǎn)擊流日志通過實(shí)時或批量的方式匯聚到HDFS文件系統(tǒng)中;一個綜合分析系統(tǒng),數(shù)據(jù)源可能不僅包含點(diǎn)擊流數(shù)據(jù),還有數(shù)據(jù)庫中的業(yè)務(wù)數(shù)據(jù)(如用戶信息、商品信息、訂單信息等)及對分析有益的外部數(shù)據(jù)。
2) 數(shù)據(jù)預(yù)處理
通過mapreduce程序?qū)Σ杉降狞c(diǎn)擊流數(shù)據(jù)進(jìn)行預(yù)處理,比如清洗,格式整理,濾除臟數(shù)據(jù)等
3) 數(shù)據(jù)入庫
將預(yù)處理之后的數(shù)據(jù)導(dǎo)入到HIVE倉庫中相應(yīng)的庫和表中
4) 數(shù)據(jù)分析
項(xiàng)目的核心內(nèi)容,即根據(jù)需求開發(fā)ETL分析語句,得出各種統(tǒng)計(jì)結(jié)果
5) 數(shù)據(jù)展現(xiàn)
將分析所得數(shù)據(jù)進(jìn)行可視化
1.2 項(xiàng)目結(jié)構(gòu)
由于本項(xiàng)目是一個純粹大數(shù)據(jù)分析項(xiàng)目,其整體結(jié)構(gòu)亦跟分析流程匹配,并沒有特別復(fù)雜的結(jié)構(gòu),如下圖:
其中,需要強(qiáng)調(diào)的是:系統(tǒng)的大數(shù)據(jù)分析不是一次性的,而是按照一定的時間頻率反復(fù)計(jì)算,因而整個處理鏈條中的各個環(huán)節(jié)需要按照一定的先后依賴關(guān)系緊密銜接,即涉及到大量任務(wù)單元的管理調(diào)度,所以,項(xiàng)目中需要添加一個任務(wù)調(diào)度模塊
1.3 數(shù)據(jù)展現(xiàn)
數(shù)據(jù)展現(xiàn)的目的是將分析所得的數(shù)據(jù)進(jìn)行可視化,以便運(yùn)營決策人員能更方便地獲取數(shù)據(jù),更快更簡單地理解數(shù)據(jù),下面是對獨(dú)立訪客的數(shù)據(jù)分析展現(xiàn)示例:
二、大數(shù)據(jù)分析的5個方面
1.、Analytic Visualizations(可視化分析)
不管是對數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓觀眾聽到結(jié)果。
2.、Data Mining Algorithms(數(shù)據(jù)挖掘算法)
可視化是給人看的,數(shù)據(jù)挖掘就是給機(jī)器看的。集群、分割、孤立點(diǎn)分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。
3.、Predictive Analytic Capabilities(預(yù)測性分析能力)
數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測性的判斷。
4.、Semantic Engines(語義引擎)
我們知道由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)。語義引擎需要被設(shè)計(jì)成能夠從“文檔”中智能提取信息。
5.、Data Quality and Master Data Management(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)
數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實(shí)踐。通過標(biāo)準(zhǔn)化的流程和工具對數(shù)據(jù)進(jìn)行處理可以保證一個預(yù)先定義好的高質(zhì)量的分析結(jié)果。
假如大數(shù)據(jù)真的是下一個重要的技術(shù)革新的話,我們最好把精力關(guān)注在大數(shù)據(jù)分析能給我們帶來的好處,而不僅僅是挑戰(zhàn)。
6、數(shù)據(jù)存儲,數(shù)據(jù)倉庫
數(shù)據(jù)倉庫是為了便于多維分析和多角度展示數(shù)據(jù)按特定模式進(jìn)行存儲所建立起來的關(guān)系型數(shù)據(jù)庫。在商業(yè)智能系統(tǒng)的設(shè)計(jì)中,數(shù)據(jù)倉庫的構(gòu)建是關(guān)鍵,是商業(yè)智能系統(tǒng)的基礎(chǔ),承擔(dān)對業(yè)務(wù)系統(tǒng)數(shù)據(jù)整合的任務(wù),為商業(yè)智能系統(tǒng)提供數(shù)據(jù)抽取、轉(zhuǎn)換和加載(ETL),并按主題對數(shù)據(jù)進(jìn)行查詢和訪問,為聯(lián)機(jī)數(shù)據(jù)分析和數(shù)據(jù)挖掘提供數(shù)據(jù)平臺。
三、大數(shù)據(jù)項(xiàng)目開發(fā)步驟:
第一步:需求:數(shù)據(jù)的輸入和數(shù)據(jù)的產(chǎn)出;
第二步:數(shù)據(jù)量、處理效率、可靠性、可維護(hù)性、簡潔性;
第三步:數(shù)據(jù)建模;
第四步:架構(gòu)設(shè)計(jì):數(shù)據(jù)怎么進(jìn)來,輸出怎么展示,最最重要的是處理流出數(shù)據(jù)的架構(gòu);
第五步:再次思考大數(shù)據(jù)系統(tǒng)和企業(yè)IT系統(tǒng)的交互;
第六步:最終確定選擇、規(guī)范等;
第七步:基于數(shù)據(jù)建模寫基礎(chǔ)服務(wù)代碼;
第八步:正式編寫第一個模塊;
第九步:實(shí)現(xiàn)其它的模塊,并完成測試和調(diào)試等;
第十步:測試和驗(yàn)收;
從流程角度上看,整個大數(shù)據(jù)分析處理可分成4個主要步驟。
第一步是數(shù)據(jù)的搜集與存儲;
第二步是通過數(shù)據(jù)分析技術(shù)對數(shù)據(jù)進(jìn)行探索性研究,包括無關(guān)數(shù)據(jù)的剔除,即數(shù)據(jù)清洗,與尋找數(shù)據(jù)的模式探索數(shù)據(jù)的價值所在;
第三步為在基本數(shù)據(jù)分析的基礎(chǔ)上,選擇和開發(fā)數(shù)據(jù)分析算法,對數(shù)據(jù)進(jìn)行建模。從數(shù)據(jù)中提取有價值的信息,這其實(shí)是真正的阿里云大數(shù)據(jù)的學(xué)習(xí)過程。這當(dāng)中會涉及很多算法和技術(shù),比如機(jī)器學(xué)習(xí)算法等;
最后一步是對模型的部署和應(yīng)用,即把研究出來的模型應(yīng)用到生產(chǎn)環(huán)境之中。
1) 數(shù)據(jù)采集:定制開發(fā)采集程序,或使用開源框架flume
2) 數(shù)據(jù)預(yù)處理:定制開發(fā)mapreduce程序運(yùn)行于hadoop集群
3) 數(shù)據(jù)倉庫技術(shù):基于hadoop之上的Hive
4) 數(shù)據(jù)導(dǎo)出:基于hadoop的sqoop數(shù)據(jù)導(dǎo)入導(dǎo)出工具
5) 數(shù)據(jù)可視化:定制開發(fā)web程序或使用kettle等產(chǎn)品
五、案例分享
1、提出需求-需要和多個部門負(fù)責(zé)人進(jìn)行協(xié)商:關(guān)于項(xiàng)目的可行性分析
2、需求分析-進(jìn)行需求調(diào)研(研究競品)、市場調(diào)研,如果是給甲方做產(chǎn)品,需要和甲方協(xié)商需求細(xì)則
3、技術(shù)選型-需要多個開發(fā)部門的人員參與協(xié)商:考慮的角度:數(shù)據(jù)的生成、數(shù)據(jù)采集、源數(shù)據(jù)的存儲、數(shù)據(jù)清洗、消息中間件、數(shù)據(jù)分析引擎、結(jié)果數(shù)據(jù)的存儲、數(shù)據(jù)的展示
4、可行性分析-預(yù)研工作:搭建技術(shù)平臺,測試可行性
5、指標(biāo)分析-需求和指標(biāo)之間的轉(zhuǎn)換,需求的細(xì)化
6、數(shù)據(jù)對接-數(shù)據(jù)采集、清洗、源數(shù)據(jù)存儲、中間件(項(xiàng)目前期是一個非常重要而且有難度的工作)
7、數(shù)據(jù)分析-把指標(biāo)轉(zhuǎn)換為代碼的過程
8、結(jié)果的存儲
9、數(shù)據(jù)展示-運(yùn)營部門
填寫下面表單即可預(yù)約申請免費(fèi)試聽!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費(fèi)! 怕學(xué)不會?助教全程陪讀,隨時解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!
?2007-2022/ mwtacok.cn 北京漫動者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc