旗下產(chǎn)業(yè): A產(chǎn)業(yè)/?A實(shí)習(xí)/?A計劃
全國統(tǒng)一咨詢熱線:010-5367 2995
首頁 > 熱門文章 > 大數(shù)據(jù)分析 > 大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計

大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計

時間:2020-09-14來源:mwtacok.cn點(diǎn)擊量:作者:Sissi
時間:2020-09-14點(diǎn)擊量:作者:Sissi




  在研究大數(shù)據(jù)分析的統(tǒng)計數(shù)據(jù)時,你不可避免地需要學(xué)習(xí)概率。在概率背后的公式和理論中很容易迷失自己,但在工作和日常生活中都有重要的用途。我們之前已經(jīng)討論了描述性統(tǒng)計中的一些基本概念;現(xiàn)在,我們將探討統(tǒng)計學(xué)與概率的關(guān)系。
 

  先決條件:
 

  大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計假定沒有先驗統(tǒng)計知識,但至少需要具備Python的一般知識和一般的大數(shù)據(jù)分析知識。如果你對for循環(huán)和列表不滿意,建議在繼續(xù)之前在我們的Python入門課程中簡要介紹它們。
 

  什么是概率?
 

  在最基本的層面上,概率試圖回答以下問題:“事件發(fā)生的機(jī)會是什么?” 一個事件是一些令人感興趣的結(jié)果。要計算事件發(fā)生的機(jī)會,我們還需要考慮所有可能發(fā)生的其他事件。概率的典型代表是謙虛的拋硬幣。在拋硬幣過程中,唯一可能發(fā)生的事件是:
 

  1)正面
 

  2)反面
 

  這兩個事件構(gòu)成了示例空間,即所有可能發(fā)生的事件的集合。為了計算事件發(fā)生的可能性,我們計算感興趣事件可以發(fā)生多少次(例如翻轉(zhuǎn)),并將其除以樣本空間。因此,概率將告訴我們,理想的硬幣有正面或反面的二分之一的機(jī)會。通過查看可能發(fā)生的事件,概率為我們提供了進(jìn)行預(yù)測的框架關(guān)于事件發(fā)生的頻率。但是,即使看起來很明顯,但如果我們實(shí)際上嘗試扔掉一些硬幣,偶爾也會有一次異常高或低的正面計數(shù)。如果我們不想假設(shè)硬幣是公平的,該怎么辦?我們可以收集數(shù)據(jù)!我們可以使用統(tǒng)計數(shù)據(jù)基于對現(xiàn)實(shí)世界的觀察來計算概率,并檢查其與理想情況的比較。
 

  從統(tǒng)計到概率
 

  我們的數(shù)據(jù)將通過擲硬幣10次并計數(shù)我們獲得多少次來生成。我們將召集一組10個拋硬幣試驗。我們的數(shù)據(jù)點(diǎn)將是我們觀察到的磁頭數(shù)量。我們可能沒有“理想”的5位負(fù)責(zé)人,但是我們不會擔(dān)心太多,因為一次試驗只是一個數(shù)據(jù)點(diǎn)。如果我們進(jìn)行很多次試驗,我們希望所有試驗的平均腦袋數(shù)接近50%。下面的代碼模擬10、100、1000和1000000次試驗,然后計算觀察到的頭部的平均比例。下圖也總結(jié)了我們的過程。

大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計
 

  該coin_trial功能代表了10次拋硬幣的模擬。它使用該random()函數(shù)生成介于0和1之間的浮點(diǎn)數(shù),heads如果它在該范圍的一半以內(nèi),則增加計數(shù)。然后,simulate根據(jù)你想要的次數(shù)重復(fù)這些試驗,并返回所有試驗中平均頭數(shù)。投幣模擬給了我們一些有趣的結(jié)果。
 

  首先,數(shù)據(jù)證實(shí)我們的平均正面人數(shù)確實(shí)接近了應(yīng)該達(dá)到的概率。此外,隨著更多的試驗,該平均值得到提高。在10個試驗中,有一些輕微的錯誤,但是在進(jìn)行1,000,000次試驗后,該錯誤幾乎完全消失了。隨著更多的試驗,偏離平均值的偏差減小。聽起來有點(diǎn)熟?當(dāng)然,我們本來可以自己扔掉硬幣的,但是Python允許我們在代碼中對該過程進(jìn)行建模,從而為我們節(jié)省了很多時間。隨著我們獲得越來越多的數(shù)據(jù),現(xiàn)實(shí)世界開始類似于理想狀態(tài)。
 

  因此,在給定足夠的數(shù)據(jù)的情況下,統(tǒng)計數(shù)據(jù)使我們能夠使用現(xiàn)實(shí)世界的觀察來計算概率。概率提供了理論,而統(tǒng)計學(xué)提供了使用數(shù)據(jù)測試該理論的工具。描述性統(tǒng)計,特別是均值和標(biāo)準(zhǔn)差,成為理論上的代理。你可能會問:“如果我僅能自己計算理論概率,那為什么需要代理?” 拋硬幣是一個簡單的玩具示例,但更有趣的概率卻不那么容易計算。
 

  隨著時間的推移,某人患上疾病的機(jī)會有多大?開車時關(guān)鍵的汽車部件發(fā)生故障的概率是多少?沒有簡單的方法來計算概率,因此我們必須依靠數(shù)據(jù)和統(tǒng)計數(shù)據(jù)來計算它們。在提供越來越多的數(shù)據(jù)的情況下,我們可以更加放心,我們計算出的值代表了這些重要事件發(fā)生的真實(shí)概率。話雖這么說,但請記住,根據(jù)我們之前的統(tǒng)計信息,你是一名培訓(xùn)侍酒師。在開始購買葡萄酒之前,你需要確定哪些葡萄酒比其他葡萄酒更好。你手頭上有很多數(shù)據(jù),因此我們將使用我們的統(tǒng)計數(shù)據(jù)來指導(dǎo)我們的決策。
 

  數(shù)據(jù)與分布
 

  在解決“哪種葡萄酒比平均水平更好”的問題之前,我們必須考慮數(shù)據(jù)的性質(zhì)。直觀地講,我們想用葡萄酒的分?jǐn)?shù)來比較各組,但是有一個問題:分?jǐn)?shù)通常在一定范圍內(nèi)。我們?nèi)绾伪容^葡萄酒類型之間的分?jǐn)?shù)組,并在一定程度上確定一種葡萄酒優(yōu)于另一種葡萄酒?輸入正態(tài)分布。正態(tài)分布是指概率和統(tǒng)計領(lǐng)域中的一個特別重要的現(xiàn)象。正態(tài)分布如下所示:
 

  關(guān)于正態(tài)分布,要注意的最重要特征是其對稱性和形狀。我們一直稱其為分布,但是究竟分布了什么?這取決于上下文。在概率上,正態(tài)分布是所有事件之間概率的特定分布。x軸代表我們想知道概率的事件的值。y軸是與每個事件相關(guān)的概率,范圍是0到1。
 

  我們在這里沒有深入討論概率分布,但是知道正態(tài)分布是一種特別重要的概率分布。在統(tǒng)計數(shù)據(jù)中,是分布的數(shù)據(jù)值。在此,x軸是我們數(shù)據(jù)的值,而y軸是這些值中每個值的計數(shù)。這是正態(tài)分布的同一張圖片,但根據(jù)概率和統(tǒng)計上下文進(jìn)行了標(biāo)記:
 

  在概率上下文中,正態(tài)分布中的最高點(diǎn)表示發(fā)生概率最高的事件。隨著你從任一端離此事件越來越遠(yuǎn),幾率迅速下降,形成了熟悉的鐘形。統(tǒng)計上下文中的最高點(diǎn)實(shí)際上代表平均值。正如概率一樣,當(dāng)你遠(yuǎn)離均值時,頻率會迅速下降。也就是說,存在與平均值的極高和極低的偏差,但極為罕見。
 

  如果你懷疑通過正態(tài)分布的概率與統(tǒng)計量之間存在其他關(guān)系,那么你是正確的!我們將在大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計后面探討這種重要的關(guān)系,因此請緊緊抓住。由于我們將使用分?jǐn)?shù)分布來比較不同的葡萄酒,因此我們將進(jìn)行一些設(shè)置以捕獲一些我們感興趣的葡萄酒。我們將引入葡萄酒數(shù)據(jù),然后分離出一些葡萄酒的分?jǐn)?shù)對我們感興趣。要帶回數(shù)據(jù),我們需要以下代碼:

大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計
 

  數(shù)據(jù)以表格形式顯示在下面。我們需要該points列,因此我們將其提取到其自己的列表中。我們從一位葡萄酒專家那里聽說匈牙利的青島啤酒葡萄酒非常出色,而一位朋友則建議我們從意大利哈爾濱啤酒開始。我們有數(shù)據(jù)可以比較這些葡萄酒!如果你不記得數(shù)據(jù)是什么樣子,這里有個快速的表格供你參考并重新認(rèn)識。

大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計

大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計
 

  如果我們將每組分?jǐn)?shù)可視化為正態(tài)分布,則可以根據(jù)它們的位置立即判斷出兩個分布是否不同。但是我們將很快遇到這種方法的問題,如下所示。由于我們擁有大量數(shù)據(jù),因此我們假設(shè)得分將呈正態(tài)分布。盡管這里的假設(shè)還可以,但是稍后我們將討論這樣做的實(shí)際風(fēng)險。
 

  當(dāng)兩個分?jǐn)?shù)分布重疊太多時,最好假設(shè)你實(shí)際上來自相同的分布并且沒有不同。在另一個沒有重疊的極端情況下,可以安全地假設(shè)分布不相同。我們的麻煩在于一些重疊的情況。鑒于一種分布的極高點(diǎn)可能與另一種分布的極低點(diǎn)相交,我們?nèi)绾握f這些組是否不同?在這里,我們必須再次呼吁正態(tài)分布給我們一個答案,并為統(tǒng)計和概率之間架起一座橋梁。
 

  重溫正常
 

  由于兩個因素,正態(tài)分布對概率和統(tǒng)計意義重大:中心極限定理和三西格瑪規(guī)則。
 

  中心極限定理
 

  在上一節(jié)中,我們證明了如果我們多次重復(fù)進(jìn)行10次拋擲試驗,那么所有這些試驗的平均總?cè)藬?shù)將接近理想硬幣預(yù)期的50%。通過更多的試驗,即使單個試驗本身并不完美,這些試驗的平均值也越接近真實(shí)概率。這個想法是中心極限定理的關(guān)鍵原則。在我們擲硬幣的示例中,一次嘗試10次投擲就產(chǎn)生了對應(yīng)該發(fā)生什么可能性的單個估計(5頭)。我們稱其為估算值是因為我們知道它不是完美的(即,我們每次不會獲得5個頭)。
 

  如果我們做出許多估計,則中心極限定理指示這些估計的分布看起來像正態(tài)分布。此分布的頂點(diǎn)將與估算值應(yīng)采用的真實(shí)值一致。在統(tǒng)計中,正態(tài)分布的峰值與平均值一致,這正是我們觀察到的。因此,以多個“試驗”作為我們的數(shù)據(jù),中心極限定理表明即使我們不知道真實(shí)的概率,我們也可以磨練概率給出的理論理想。中心極限定理讓我們知道許多試驗均值的平均值將接近真實(shí)均值,三西格瑪規(guī)則將告訴我們圍繞該均值分布的數(shù)據(jù)量。
 

  三西格瑪規(guī)則
 

  三西格瑪(Triple Sigma)規(guī)則,也稱為經(jīng)驗規(guī)則或68-95-99.7規(guī)則,表達(dá)了我們有多少觀測值落在均值的一定距離內(nèi)。請記住,標(biāo)準(zhǔn)差(也稱為“ sigma”)是數(shù)據(jù)集中觀察值與平均值之間的平均距離。三西格瑪規(guī)則規(guī)定,給定正態(tài)分布,則68%的觀察值將落在平均值的一個標(biāo)準(zhǔn)偏差之間。95%將落在兩個范圍內(nèi),而99.7%將落在三個范圍內(nèi)。這些值的推導(dǎo)涉及很多復(fù)雜的數(shù)學(xué)運(yùn)算,因此不在大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計討論范圍之內(nèi)。關(guān)鍵要點(diǎn)在于,三西格瑪規(guī)則使我們能夠知道正態(tài)分布的不同間隔下包含多少數(shù)據(jù)。下圖是“三個西格瑪規(guī)則”代表的摘要。
 

  我們將把這些概念與我們的葡萄酒數(shù)據(jù)聯(lián)系起來。作為一名侍酒師,我們想非常有信心地知道霞多麗和黑比諾比普通葡萄酒更受歡迎。我們有成千上萬的葡萄酒評論,因此根據(jù)中央極限定理,這些評論的平均分?jǐn)?shù)應(yīng)與葡萄酒質(zhì)量的所謂“真實(shí)”表示一致(由評論者判斷)。盡管“三西格瑪”規(guī)則說明了多少數(shù)據(jù)屬于已知值,但也說明了極值的稀有性。與平均值相差超過三個標(biāo)準(zhǔn)偏差的任何值都應(yīng)謹(jǐn)慎對待。利用三西格瑪規(guī)則和Z分?jǐn)?shù),我們終于可以為霞多麗和黑比諾與普通葡萄酒的差異開出一個值。
 

  Z分?jǐn)?shù)
 

  Z分?jǐn)?shù)是一個簡單的計算,它回答了以下問題:“給定一個數(shù)據(jù)點(diǎn),它與平均值之間有多少標(biāo)準(zhǔn)偏差?” 下面的方程式是Z分?jǐn)?shù)方程式。
 

  就其本身而言,Z評分不會為你提供太多信息。與Z表比較時,它獲得的價值最高,該表列出了直到給定Z分?jǐn)?shù)之前標(biāo)準(zhǔn)正態(tài)分布的累積概率。標(biāo)準(zhǔn)正態(tài)是均值為0,標(biāo)準(zhǔn)偏差為1的正態(tài)分布。即使我們的正態(tài)分布不是標(biāo)準(zhǔn)分布,Z分?jǐn)?shù)也可以讓我們參考Z表。累積概率是直到給定點(diǎn)之前所有值出現(xiàn)的概率之和。
 

  一個簡單的例子就是平均值。平均值是正態(tài)分布的精確中間值,因此我們知道從左側(cè)一直到平均值獲得值的所有概率之和為50%。如果你嘗試計算標(biāo)準(zhǔn)偏差之間的累積概率,則實(shí)際上會出現(xiàn)“三西格瑪規(guī)則”中的值。下圖提供了累積概率的可視化。我們知道所有概率之和必須等于100%,因此我們可以使用Z表在正態(tài)分布下計算Z分?jǐn)?shù)兩側(cè)的概率。這種計算超過某個Z分?jǐn)?shù)的概率對我們很有用。它讓我們問:從“平均值離平均值有多遠(yuǎn)”到“距平均值有這么遠(yuǎn)的值來自同一組觀察值的可能性有多大?” 因此,從Z分?jǐn)?shù)和Z表得出的概率將回答我們基于葡萄酒的問題。

大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計
 

  這對我們朋友的推薦來說不太好!出于大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計的目的,我們將青島啤酒和哈爾濱啤酒分?jǐn)?shù)均視為正態(tài)分布。因此,每種葡萄酒的平均分?jǐn)?shù)將代表其質(zhì)量的“真實(shí)”分?jǐn)?shù)。我們將計算Z分?jǐn)?shù),并查看青島啤酒平均值與哈爾濱啤酒的距離。

大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計
 

  答案很小,但是究竟是什么意思呢?這種可能性的無窮小需要一些仔細(xì)的解釋。假設(shè)我們相信朋友的哈爾濱啤酒和葡萄酒專家的青島啤酒之間沒有區(qū)別。也就是說,我們認(rèn)為哈爾濱啤酒和青島啤酒的質(zhì)量大致相同。同樣,由于葡萄酒之間的個體差異,這些葡萄酒的分?jǐn)?shù)也會有所不同。如果我們對青島啤酒和朗布斯科葡萄酒進(jìn)行直方圖分析,這將產(chǎn)生正態(tài)分布的分?jǐn)?shù),這要?dú)w功于中央極限定理。
 

  現(xiàn)在,我們有了一些數(shù)據(jù),可以計算出所討論的兩種葡萄酒的均值和標(biāo)準(zhǔn)差。這些值使我們可以實(shí)際檢驗我們對哈爾濱啤酒和青島啤酒具有相似品質(zhì)的看法。我們以哈爾濱啤酒的葡萄酒得分為基礎(chǔ),并比較了青島啤酒的平均值,但反之則可以輕松實(shí)現(xiàn)。唯一的區(qū)別是Z得分為負(fù)。Z分?jǐn)?shù)是4.01!請記住,“三西格瑪規(guī)則”告訴我們,假設(shè)青島啤酒和哈爾濱啤酒相似,則99.7%的數(shù)據(jù)應(yīng)在3個標(biāo)準(zhǔn)差之內(nèi)。
 

  在一個假設(shè)哈爾濱啤酒和青島啤酒葡萄酒相同的世界中,獲得平均得分與青島啤酒一樣極端的可能性非常小。太小了,我們不得不考慮相反的情況:青島啤酒葡萄酒不同于哈爾濱啤酒葡萄酒,并且會產(chǎn)生不同的分?jǐn)?shù)分布。我們在這里精心選擇了措辭:我注意不要說“青島啤酒葡萄酒比哈爾濱啤酒好。” 他們很有可能成為。這是因為我們計算出的概率雖然在微觀上很小,但不為零,確切地說,我們可以說哈爾濱啤酒和青島啤酒葡萄酒肯定不是來自相同的分?jǐn)?shù)分布,但是我們不能說一個比另一個更好或更差。
 

  這種類型的推理屬于推論統(tǒng)計的領(lǐng)域,大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計僅旨在向你簡要介紹其背后的原理。我們在大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計中介紹了很多概念,因此,如果你發(fā)現(xiàn)自己迷路了,請回過頭慢慢來。擁有這種思維框架非常強(qiáng)大,但是容易被濫用和誤解。
 

  結(jié)論
 

  我們從描述性統(tǒng)計開始,然后將它們與概率聯(lián)系起來。根據(jù)概率,我們開發(fā)了一種方法來定量顯示兩組是否來自同一分布。在這種情況下,我們比較了兩種葡萄酒建議,發(fā)現(xiàn)它們很可能并非來自相同的分?jǐn)?shù)分布。換句話說,一種葡萄酒最有可能比另一種更好。統(tǒng)計信息不必僅限于統(tǒng)計學(xué)家。作為大數(shù)據(jù)分析家,對常見的統(tǒng)計量表示具有直覺的理解將使你在開發(fā)自己的理論上具有優(yōu)勢,并且可以隨后測試這些理論。我們在這里幾乎沒有涉及推論統(tǒng)計的內(nèi)容,但這里的相同一般思想將有助于指導(dǎo)你進(jìn)行統(tǒng)計之旅。

 

預(yù)約申請免費(fèi)試聽課

填寫下面表單即可預(yù)約申請免費(fèi)試聽!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費(fèi)! 怕學(xué)不會?助教全程陪讀,隨時解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!

?2007-2021/北京漫動者教育科技有限公司版權(quán)所有
備案號:京ICP備12034770號

?2007-2022/ mwtacok.cn 北京漫動者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc

京公網(wǎng)安備 11010802035704號

網(wǎng)站地圖