大數據分析工作內容
時間:2021-09-26來源:mwtacok.cn點擊量:次作者:admin
時間:2021-09-26點擊量:次作者:admin
對于剛接觸大數據分析崗位的人來說,他們對大數據的定義概念都不了解,到底大數據分析的是什么、大數據分析了之后能得到什么、在學習大數據分析的時候應該把握怎樣的線路路徑、應該朝著哪個方向去發(fā)展才能獲得更好的提升,以上這些就是大多數初次接觸大數據分析人士最容易遇到的問題。
其實大數據分析沒有大家所想象的那么難,從籠統(tǒng)的角度出發(fā)去理解,大數據分析師的日常工作包含數據采集、數據清洗、數據存儲、數據分析、統(tǒng)計數據、可視化結論獲得這幾個方面,只要在以上流程中的每個階段將不同體系和軟件運用起來就能進一步展開分析,得到最終的結論。
第一,數據采集,數據采集一般來說會通過系統(tǒng)的埋點代碼產生的原始日志來獲得,可以利用flume監(jiān)控接收這些分散的日志,將分散日志做聚合采集,如此就能得到對應的、可以被分析的數據。
第二,數據的清洗,初次獲得的大數據是千奇百怪的,比如說有一些數據它是臟數據,也就是異常的數據值,有一些數據字段是多余的,根本就不需要用到這些數據來做分析,為了節(jié)省后期的存儲空間應該將這些無效數據剔除掉。還有一些數據它會包含敏感的字眼,需要做脫敏處理,比如說像用戶的姓名,一般來說只要保留他的姓、他的名字后兩位應該用星號來替代,如此才算是完成了數據清洗的全流程。
第三,數據的存儲,清洗后的數據可以直接放到hive,也就是數據倉庫內部做存儲。當然了,除了有hive這樣的存儲軟件之外,還有像kafka存儲軟件,如果本身對數據的分析實時性要求比較高,將它放在kafka里面會更好一些。
第四,數據的分析和統(tǒng)計,數據分析算是數據從業(yè)流的下游,消費者是來自于上游的數據,你需要從日志記錄中統(tǒng)計出各種各樣的報表,簡單的報表可以用sql軟件來進行統(tǒng)計,復雜的報表就需要用到spark或者storm做統(tǒng)計的分析。
第五,數據可視化,簡單來說就是用數據的表格、數據圖等這些能讓人直觀感受到的方式呈現出數據結果,得到了結果之后就算是這一次分析的完結。順帶說一下,大數據分析所有的工作都是為了得到這個結果,這個結果如果跟實際情況一致的話就可以利用這一個結論為后期城市建設、企業(yè)KPI設定、員工管理提供幫助。
總的來說,大數據分析師的工作內容并不復雜,初學者可能確實要摸索一段時間,但如果是已經在這個工作崗位上做了三五年的人,往往只需要按照流程做不同時間點的鼠標點擊,到了這個階段就點擊這個軟件,到了下一個階段就點擊下一個軟件,如此就能機械化展開有效分析,從業(yè)難度并不算特別大。