大數(shù)據(jù)分析如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化?很多人同學(xué)問我使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化出點(diǎn)教程,今天AAA教育小編姐姐就詳細(xì)的講如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化, 例如好的草圖總比講話要長。 該建議可能來自戰(zhàn)場,但也適用于許多其他領(lǐng)域,包括數(shù)據(jù)科學(xué)。通過簡單地在R中使用ggplot2可視化數(shù)據(jù)來“簡化”我們的數(shù)據(jù),比簡單地描述發(fā)現(xiàn)的趨勢更具影響力。
勾畫出房屋的設(shè)計(jì)要比用文字描述要清晰得多。數(shù)據(jù)通常也是如此—這就是使用ggplot2進(jìn)行數(shù)據(jù)可視化的地方!
這就是我們可視化數(shù)據(jù)的原因。我們將數(shù)據(jù)可視化,是因?yàn)樗刮覀兏菀讖目梢姷膬?nèi)容中學(xué)習(xí)而不是閱讀。對于使用R的數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家來說,值得慶幸的是,有一個(gè)名為ggplot2的tidyverse程序包使數(shù)據(jù)可視化變得輕而易舉!
在此大數(shù)據(jù)分析如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化文章中,我們將學(xué)習(xí)如何使用R來獲取一些數(shù)據(jù)并產(chǎn)生可視化效果。要對其進(jìn)行處理,最好是如果您已經(jīng)對R編程語法有所了解,但是您不需要成為專家或有使用ggplot2的任何經(jīng)驗(yàn)。
資料介紹
在全國衛(wèi)生統(tǒng)計(jì)中心一直在跟蹤美國死亡率的趨勢自1900年以來,他們已經(jīng)編制數(shù)據(jù)對預(yù)期壽命和美國公民的死亡率。
我們想知道預(yù)期壽命是如何隨著時(shí)間變化的。隨著醫(yī)學(xué)和技術(shù)的進(jìn)步,我們期望人們的預(yù)期壽命會(huì)增加,但是直到一看就無法確定!
如果您想復(fù)制我們將在此大數(shù)據(jù)分析如何使用ggplot2在R中進(jìn)行數(shù)據(jù)可視化文章中創(chuàng)建的圖形,請?jiān)诖颂幭螺d數(shù)據(jù)集并繼續(xù)學(xué)習(xí)!
不確定如何在個(gè)人計(jì)算機(jī)上使用R?請查看如何開始使用RStudio!
圖中有什么?
在我們深入探討該職位之前,需要一些背景信息。那里有很多類型的可視化,但是其中大多數(shù)可以歸結(jié)為以下內(nèi)容:
我們可以將此圖分解成其基本構(gòu)建塊:
1、用于創(chuàng)建圖的數(shù)據(jù):
2、繪圖的軸:
3、用于可視化數(shù)據(jù)的幾何形狀。在這種情況下,一行:
4、有助于讀者理解圖解的標(biāo)簽或注釋:
將圖分成幾層很重要,因?yàn)檫@是ggplot2程序包理解和構(gòu)建圖的方式。該ggplot2包是在一個(gè)程序包tidyverse,它是負(fù)責(zé)可視化。在繼續(xù)閱讀文章時(shí),請牢記這些層次。
導(dǎo)入數(shù)據(jù)
為了開始可視化,我們需要將數(shù)據(jù)放入我們的工作區(qū)。我們將引入tidyverse軟件包并使用該read_csv()函數(shù)導(dǎo)入數(shù)據(jù)。我們將數(shù)據(jù)命名為life_expec.csv,因此您需要根據(jù)文件命名方式對其進(jìn)行重命名。
讓我們看看我們正在處理哪些數(shù)據(jù):
通過該Year列我們可以看到時(shí)間以年為單位編碼。有兩列可讓我們區(qū)分不同的種族和性別類別。最后,最后兩列對應(yīng)于預(yù)期壽命和死亡率。
讓我們快速瀏覽一下數(shù)據(jù),以查看特定年份的數(shù)據(jù):
對于2000年,有九個(gè)數(shù)據(jù)點(diǎn):
一年有九個(gè)不同的行,每行對應(yīng)一個(gè)不同的人口統(tǒng)計(jì)部門。對于此可視化,我們將重點(diǎn)放在整個(gè)美國,因此我們需要相應(yīng)地過濾數(shù)據(jù):
數(shù)據(jù)存放在合適的位置,因此我們可以將其ggplot()傳送到函數(shù)中以開始創(chuàng)建圖形。我們使用該ggplot()函數(shù)來表示我們要?jiǎng)?chuàng)建一個(gè)圖。
這段代碼產(chǎn)生了一個(gè)空白圖表(如下所示)。但是life_expec,即使我們尚未看到圖表,它現(xiàn)在也“知道”使用數(shù)據(jù)。
建造斧頭
現(xiàn)在我們已經(jīng)準(zhǔn)備好數(shù)據(jù),我們可以開始構(gòu)建可視化了。我們需要建立的下一層是軸。我們感興趣的是看預(yù)期壽命隨時(shí)間如何變化,所以這指明了我們的兩個(gè)軸分別是:Year和Avg_Life_Expec。
為了指定軸,我們需要使用該aes()功能。aes“美學(xué)”的縮寫,是在這里告訴我們要在圖表的不同部分使用ggplot哪些列。我們試圖通過時(shí)間來看看壽命,因此,這意味著Year將去x-axis,并Avg_Life_Expec會(huì)去y軸。
通過添加aes()功能,圖形現(xiàn)在可以知道哪些列可歸因于軸:
但是請注意,情節(jié)上仍然沒有任何內(nèi)容!我們?nèi)匀恍枰嬖Vggplot()使用什么樣的形狀,以可視化之間的關(guān)系Year和Avg_Life_Expec。
指定幾何
通常,當(dāng)我們想到可視化時(shí),通常會(huì)考慮圖形的類型,因?yàn)樗鼘?shí)際上是我們看到的形狀可以告訴我們大多數(shù)信息。該ggplot2軟件包在選擇形狀繪制數(shù)據(jù)方面為我們提供了很大的靈活性,但值得花一些時(shí)間來考慮哪種問題最適合我們的問題。
我們正在嘗試將預(yù)期壽命隨時(shí)間變化的形象化。這意味著我們應(yīng)該有一種方法可以將過去與未來直接進(jìn)行比較。換句話說,我們想要一個(gè)有助于顯示連續(xù)兩年之間的關(guān)系的形狀。為此,折線圖很棒。
要使用創(chuàng)建折線圖ggplot(),我們使用geom_line()函數(shù)。A geom是我們要用來可視化數(shù)據(jù)的特定形狀的名稱。用于繪制這些形狀的所有功能都geom位于它們的前面。geom_line()創(chuàng)建折線圖,geom_point()創(chuàng)建散點(diǎn)圖等。
注意使用該ggplot()功能后,如何開始使用+符號(hào)向其添加更多層。請務(wù)必注意這一點(diǎn),因?yàn)槲覀兺ǔ?>%會(huì)告訴您ggplot()要使用哪些數(shù)據(jù)。使用之后ggplot(),我們使用+來添加更多圖層。
這張圖正是我們想要的!從總體趨勢來看,預(yù)期壽命隨著時(shí)間的推移而增長。
如果我們只是快速查看數(shù)據(jù),可以在此處停止繪圖,但是這種情況很少發(fā)生。更為常見的是,您將為報(bào)告或團(tuán)隊(duì)中的其他人創(chuàng)建可視化文件。在這種情況下,情節(jié)是不完整的:如果我們將其交給沒有上下文的隊(duì)友,他們將不會(huì)理解情節(jié)。理想情況下,所有情節(jié)都應(yīng)該能夠通過注釋和標(biāo)題來說明自己。
添加標(biāo)題和軸標(biāo)簽
當(dāng)前,該圖將列名稱保留為兩個(gè)軸的標(biāo)簽。對于Year,這已經(jīng)足夠了,但是我們想改變y軸。為了更改圖的軸標(biāo)簽,我們可以使用該labs()函數(shù)并將其作為圖層添加到圖上。labs()可以同時(shí)更改軸標(biāo)簽和標(biāo)題,因此我們將其合并在此。
我們最終的拋光圖是:
結(jié)論:ggplot2功能強(qiáng)大!
僅用幾行代碼,我們就產(chǎn)生了出色的可視化效果,它告訴我們我們需要了解的有關(guān)美國一般人口的預(yù)期壽命的所有信息??梢暬撬袛?shù)據(jù)分析師的一項(xiàng)必不可少的技能,R使其易于使用。
如果您有興趣了解更多信息,請查看我們在R路徑中的數(shù)據(jù)分析師!R路徑中的Data Analyst包括使用R進(jìn)行R數(shù)據(jù)可視化的課程ggplot2,您將在其中學(xué)習(xí)如何:
1)使用折線圖可視化隨時(shí)間變化。
2)使用直方圖了解數(shù)據(jù)分布。
3)使用條形圖和箱形圖比較圖形。
4)使用散點(diǎn)圖了解變量之間的關(guān)系。
填寫下面表單即可預(yù)約申請免費(fèi)試聽!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!
?2007-2022/ mwtacok.cn 北京漫動(dòng)者數(shù)字科技有限公司 備案號(hào): 京ICP備12034770號(hào) 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc