旗下產(chǎn)業(yè): A產(chǎn)業(yè)/?A實習/?A計劃
全國統(tǒng)一咨詢熱線:010-5367 2995
首頁 > 熱門文章 > 大數(shù)據(jù)分析 > 大數(shù)據(jù)分析命令行工具有哪些

大數(shù)據(jù)分析命令行工具有哪些

時間:2020-09-14來源:mwtacok.cn點擊量:作者:Sissi
時間:2020-09-14點擊量:作者:Sissi



  這大數(shù)據(jù)分析命令行工具有哪些是對十二種類Unix操作系統(tǒng)命令行工具的簡短概述,這些工具可用于大數(shù)據(jù)分析任務。該名單不包括任何一般的文件管理命令(pwd,ls,mkdir,rm,...)或遠程會話管理工具(rsh,ssh,...),而是由公用事業(yè)這將是有用的從大數(shù)據(jù)分析的角度看,一般是涉及不同了數(shù)據(jù)檢查和處理的程度。它們也都包含在典型的類Unix操作系統(tǒng)中。當然,它是基本的,但是我鼓勵你在適當?shù)那闆r下尋找其他命令示例。工具名稱鏈接到Wikipedia條目,而不是手冊頁,因為在我看來,前者通常對新手更友好。
 

  1、wget
 

  wget是一種文件檢索實用程序,用于從遠程位置下載文件。以其最基本的形式,wget用于下載遠程文件:

大數(shù)據(jù)分析命令行工具有哪些
 

  2、cat
 

  cat是用于將文件內(nèi)容輸出到標準輸出的工具。該名稱來自串聯(lián)。更復雜的用例包括將文件組合在一起(實際串聯(lián)),將文件追加到另一個文件,對文件行編號等。

大數(shù)據(jù)分析命令行工具有哪些
 

  3、wc
 

  該wc命令用于產(chǎn)生字數(shù),行數(shù),字節(jié)數(shù)以及與文本文件相關(guān)的內(nèi)容。wc的默認輸出在不帶選項的情況下運行時,是一行,由左至右,行數(shù),字數(shù)(請注意,每行不間斷的單個字符串計為一個字),字符數(shù)和文件名。

大數(shù)據(jù)分析命令行工具有哪些
 

  4、head
 

  head將文件的前n行(默認情況下為10)輸出到標準輸出??梢允褂?n選項設(shè)置顯示的行數(shù)。

大數(shù)據(jù)分析命令行工具有哪些
 

  5、tail
 

  有什么猜測tail嗎?

大數(shù)據(jù)分析命令行工具有哪些
大數(shù)據(jù)分析命令行工具有哪些
 

  6、find
 

  find是用于在文件系統(tǒng)中搜索特定文件的實用程序。以下內(nèi)容從當前目錄(“。”)開始的樹結(jié)構(gòu)中搜索以“ iris”開頭并以常規(guī)文件類型(“ -type f”組成的任何啞字符(“ -name'iris *””)結(jié)尾的任何文件”):

大數(shù)據(jù)分析命令行工具有哪些
 

  7、cut
 

  cut用于從文件中切出一行文本。盡管可以使用多種標準來制作這些切片,但是cut可以用于從CSV文件中提取列數(shù)據(jù)。這將使用逗號作為字段分隔符(“ -d','”)輸出iris.csv文件的第五列(“ -f 5”):

大數(shù)據(jù)分析命令行工具有哪些
 

  8、uniq
 

  uniq通過將相同的連續(xù)行折疊為一個副本,將文本文件的輸出修改為標準輸出。單獨看來,這似乎并不太有趣,但是當用于在命令行上構(gòu)建管道時(將一個命令的輸出插入另一個命令的輸入,依此類推),這可能會變得有用。
 

  以下內(nèi)容為我們提供了第五列中保存的虹膜數(shù)據(jù)集類名稱的唯一計數(shù)及其計數(shù):


大數(shù)據(jù)分析命令行工具有哪些

  9、awk
 

  awk實際上不是“命令”,而是一種完整的編程語言。它用于處理和提取文本,并且可以從命令行以單行命令形式調(diào)用。
 

  精通awk需要花費一些時間,但是在此之前,這里是它可以完成的示例。考慮到我們的示例文件– iris.csv –相當有限(特別是在涉及文本多樣性時),此行將調(diào)用awk,在給定文件(“ iris.csv”)中搜索字符串“ setosa”,并逐一打印到它遇到的項目(保存在$ 0變量中):

大數(shù)據(jù)分析命令行工具有哪些
 

  10、grep
 

  grep 是另一種文本處理工具,用于字符串和正則表達式匹配。
 

  如果你在命令行上花費大量時間進行文本處理,那么grep絕對是你會熟悉的工具。

大數(shù)據(jù)分析命令行工具有哪些
 

  11、sed
 

  sed是一個流編輯器,是另一個文本處理和轉(zhuǎn)換工具,類似于awk。我們在下面使用此行,使用此行將其在iris.csv文件中出現(xiàn)的“ setosa”更改為“ iris-setosa”:

大數(shù)據(jù)分析命令行工具有哪些
 

  12、history
 

  history 非常簡單,但也很有用,尤其是當你要復制在命令行中完成的某些數(shù)據(jù)準備時。

大數(shù)據(jù)分析命令行工具有哪些
 

  在那里,你簡單介紹了12種方便的命令行工具。這只是對命令行中大數(shù)據(jù)分析(或就此而言的其他任何目標)可能實現(xiàn)的一種嘗試。讓自己從鼠標中解放出來,觀察生產(chǎn)率的提高。



 

預約申請免費試聽課

填寫下面表單即可預約申請免費試聽!怕錢不夠?可先就業(yè)掙錢后再付學費! 怕學不會?助教全程陪讀,隨時解惑!擔心就業(yè)?一地學習,可推薦就業(yè)!

?2007-2021/北京漫動者教育科技有限公司版權(quán)所有
備案號:京ICP備12034770號

?2007-2022/ mwtacok.cn 北京漫動者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc

京公網(wǎng)安備 11010802035704號

網(wǎng)站地圖