在時(shí)間序列中,我們經(jīng)常觀察到過(guò)去和現(xiàn)在的值之間的相似性。那是因?yàn)槲覀冊(cè)诖祟悢?shù)據(jù)中遇到自相關(guān)。換句話說(shuō),通過(guò)了解當(dāng)今產(chǎn)品的價(jià)格,我們經(jīng)??梢詫?duì)明天的產(chǎn)品價(jià)值做出大致的預(yù)測(cè)。因此,在大數(shù)據(jù)分析python自回歸模型中,我們將討論一個(gè)反映這種相關(guān)性的模型。–自回歸模型。
什么是自回歸模型?
自回歸模型或簡(jiǎn)稱為AR模型,僅依靠過(guò)去的時(shí)間值來(lái)預(yù)測(cè)當(dāng)前值。這是一個(gè)線性模型,其中當(dāng)前期間的值是過(guò)去結(jié)果的總和乘以數(shù)字因子。我們將其表示為AR(p),其中“ p”稱為模型的階數(shù),表示我們要包括的滯后值的數(shù)量。
例如,如果我們將X作為時(shí)間序列變量,則AR(1)(也稱為簡(jiǎn)單自回歸模型)將看起來(lái)像這樣:
X t = C + ? 1 X t-1 + ? t
讓我們仔細(xì)研究這個(gè)等式的不同部分,以確保我們很好地理解這個(gè)概念。
X t-1是多少?
對(duì)于初學(xué)者,X t-1表示上一期間的X值。
讓我們?cè)敿?xì)說(shuō)明。
如果“ t”代表今天并且我們有每周值,那么“ t-1”代表上周。因此,X t-1描述了一周前記錄的值。
? 1是什么?
系數(shù)? 1是一個(gè)數(shù)字常數(shù),通過(guò)該常數(shù)我們可以將滯后變量(X t-1)相乘。您可以將其解釋為先前值的一部分,該值會(huì)保留在將來(lái)。值得注意的是,這些系數(shù)應(yīng)始終在-1和1之間。
讓我解釋一下原因。
如果系數(shù)的絕對(duì)值大于1,則隨著時(shí)間的流逝,它將無(wú)可估量地爆炸。
起初,這個(gè)想法似乎令人困惑。因此,讓我們看一個(gè)數(shù)學(xué)示例。
假設(shè)我們有一個(gè)包含1000個(gè)觀測(cè)值的時(shí)間序列,? 1 = 1.3并且C = 0。
然后,X 2 = 0 + 1.3 X 1
既然X 3 = 1.3 X 2,我們可以用(1.3 X 1)代替X 2,得到X 3 = 1.3(1.3 X 1)= 1.3 2 X 1。然后,隨著累積的時(shí)間越多(例如X 50),系數(shù)增加的幅度就越大(1.3 49 X 1)。
當(dāng)我們到達(dá)第1000個(gè)周期時(shí),我們將得到X 1000 = 1.3 999 X 1。這意味著這些值會(huì)繼續(xù)增加,最終比初始值要高得多。這顯然不是預(yù)測(cè)未來(lái)的可靠方法。
什么是ε 牛逼?
好了,現(xiàn)在我們需要打破方程的唯一部分是ε 牛逼。這就是所謂的殘留,并代表周期t和正確的值(ε我們的預(yù)測(cè)之間的差噸 = Y 噸 - ? 噸)。這些殘差通常是不可預(yù)測(cè)的差異,因?yàn)槿绻嬖谀撤N模式,它將被模型的其他現(xiàn)有因素捕獲。
我們?nèi)绾谓忉屪曰貧w模型?
現(xiàn)在我們知道模型的所有部分代表什么,讓我們嘗試對(duì)其進(jìn)行解釋。根據(jù)等式,在給定時(shí)期(X值噸)等于某個(gè)部分(φ 1中的最后一個(gè)時(shí)間段(X值)T-1 ),加上一些恒定基準(zhǔn)的和不可預(yù)測(cè)的沖擊ε 噸。
了解我們?cè)诮o定的數(shù)據(jù)集上不僅僅使用任何自回歸模型至關(guān)重要。我們首先需要確定要在分析中包括多少個(gè)滯后(過(guò)去值)。
具有更多滯后的自回歸模型
例如,有關(guān)氣象條件的時(shí)間序列將不僅僅依賴于一天前的天氣統(tǒng)計(jì)數(shù)據(jù)??梢钥隙ǖ卣f(shuō),它將使用過(guò)去7天的數(shù)據(jù)。因此,該模型應(yīng)考慮最多7個(gè)周期的值。
從數(shù)學(xué)的角度來(lái)看,使用兩個(gè)滯后的模型(AR(2))如下所示:
X t = C + ? 1 X t-1 + ? 2 X t-2 + ? t
如您所料,更復(fù)雜的自回歸模型將包含更多滯后值X t-n以及它們相關(guān)的系數(shù)? n。
我們包含的滯后越多,我們的模型就越復(fù)雜。
模型越復(fù)雜,我們必須確定的系數(shù)就越多,結(jié)果,其中某些系數(shù)不重要的可能性就越大。
現(xiàn)在,通常來(lái)說(shuō),考慮到更多數(shù)據(jù)進(jìn)行預(yù)測(cè)的模型通常會(huì)更好。但是,如果系數(shù)(? 1,? 2,…… n)與0的差別不大,則它們對(duì)預(yù)測(cè)值沒(méi)有影響(因?yàn)? k X t-k = 0),因此將它們包括在內(nèi)幾乎沒(méi)有意義。在模型中。
當(dāng)然,無(wú)法手動(dòng)確定這些系數(shù)的重要性。
對(duì)我們來(lái)說(shuō)幸運(yùn)的是,Python非常適合這項(xiàng)工作。借助方便的庫(kù)(例如Pandas和Statsmodels),我們可以為任何給定的數(shù)據(jù)集確定最合適的自回歸模型。
如果您想了解有關(guān)在Python中實(shí)現(xiàn)自回歸模型或模型選擇過(guò)程如何工作的更多信息,請(qǐng)務(wù)必查看我們的分步Python教程。
如果您不熟悉 Python,并且熱衷于了解更多信息,那么這篇有關(guān)學(xué)習(xí)Python編程的綜合文章將指導(dǎo)您從安裝到Python IDE,庫(kù)和框架,再到最佳Python職業(yè)發(fā)展道路,以及工作前景。
準(zhǔn)備好邁向大數(shù)據(jù)分析事業(yè)的下一步了嗎?
立即查看完整的大數(shù)據(jù)分析技術(shù)文章。從我們的統(tǒng)計(jì),數(shù)學(xué)和Excel課程開(kāi)始,從基礎(chǔ)知識(shí)入手,逐步掌握SQL,Python,R和Tableau的經(jīng)驗(yàn),并通過(guò)機(jī)器學(xué)習(xí),深度學(xué)習(xí),信用風(fēng)險(xiǎn)建模,時(shí)間序列分析升級(jí)技能和Python中的客戶分析。如果您仍然不確定要把對(duì)數(shù)據(jù)科學(xué)的興趣變成扎實(shí)的職業(yè),我們還提供了大數(shù)據(jù)分析試聽(tīng)課程。聯(lián)系在線客服小姐姐索取試聽(tīng)課程
填寫(xiě)下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽(tīng)!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!
?2007-2022/ mwtacok.cn 北京漫動(dòng)者數(shù)字科技有限公司 備案號(hào): 京ICP備12034770號(hào) 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc