通過(guò)深度學(xué)習(xí)的先進(jìn)技術(shù),自然語(yǔ)言處理取得了令人難以置信的進(jìn)步。了解這些強(qiáng)大的模型,并發(fā)現(xiàn)這些方法與人類(lèi)水平的理解有多近(或遙遠(yuǎn))。
人類(lèi)有很多感覺(jué),但我們的感官體驗(yàn)通常以視覺(jué)為主??紤]到這一點(diǎn),現(xiàn)代機(jī)器學(xué)習(xí)的先鋒由計(jì)算機(jī)視覺(jué)任務(wù)主導(dǎo)可能并不奇怪。同樣,當(dāng)人類(lèi)想要交流或接收信息時(shí),他們使用的最普遍,最自然的途徑就是語(yǔ)言。語(yǔ)言可以通過(guò)口頭和書(shū)面單詞,手勢(shì)或某種方式的組合來(lái)傳達(dá),但是出于大數(shù)據(jù)分析深度學(xué)習(xí)在自然語(yǔ)言處理NLP中的應(yīng)用的目的,我們將重點(diǎn)放在書(shū)面單詞上(盡管此處的許多課程也與口頭演講重疊)。
多年來(lái),我們已經(jīng)看到了自然語(yǔ)言處理領(lǐng)域(又名NLP,不要與混淆 的是 NLP)與深層神經(jīng)網(wǎng)絡(luò)對(duì)正在進(jìn)行的腳后跟緊跟 深度學(xué)習(xí)計(jì)算機(jī)視覺(jué)。隨著預(yù)訓(xùn)練的通用語(yǔ)言模型的出現(xiàn),我們現(xiàn)在有了將學(xué)習(xí)轉(zhuǎn)移到具有大規(guī)模預(yù)訓(xùn)練模型(例如GPT-2,BERT和ELMO)的新任務(wù)的方法。這些模型和類(lèi)似模型在世界范圍內(nèi)都在進(jìn)行實(shí)際工作,無(wú)論是日常課程(翻譯,轉(zhuǎn)錄等),還是在科學(xué)知識(shí)前沿的發(fā)現(xiàn)(例如,根據(jù)出版文本[pdf]預(yù)測(cè)材料科學(xué)的發(fā)展 ) 。
長(zhǎng)期以來(lái),外國(guó)人和母語(yǔ)人士對(duì)語(yǔ)言的掌握程度一直被認(rèn)為是博學(xué)的個(gè)體的標(biāo)志。一位杰出的作家或一個(gè)會(huì)說(shuō)流利的多種語(yǔ)言的人受到高度重視,并有望在其他領(lǐng)域也很聰明。掌握任何語(yǔ)言以達(dá)到母語(yǔ)水平的流利程度都非常困難,甚至要賦予其高雅的風(fēng)格和/或非凡的清晰度。但是,即使是典型的人類(lèi)熟練程度,也表現(xiàn)出令人難以置信的能力,可以解析復(fù)雜的消息,同時(shí)可以在上下文,語(yǔ)句,方言以及語(yǔ)言理解的不可動(dòng)搖的混雜因素(諷刺和諷刺)中破譯大量的編碼變化。
理解語(yǔ)言仍然是一個(gè)難題,盡管在許多領(lǐng)域得到了廣泛使用,但是使用機(jī)器進(jìn)行語(yǔ)言理解的挑戰(zhàn)仍然存在許多未解決的問(wèn)題。請(qǐng)考慮以下模糊和奇怪的單詞或短語(yǔ)對(duì)。表面上,每對(duì)成員具有相同的含義,但無(wú)疑傳達(dá)出細(xì)微的差別。對(duì)于我們?cè)S多人而言,唯一的細(xì)微差別可能是無(wú)視語(yǔ)法和語(yǔ)言的精確性,但是拒絕承認(rèn)通用含義在大多數(shù)情況下會(huì)使語(yǔ)言模型看起來(lái)很愚蠢。
不在乎=(?)可以少關(guān)心
不管=(?)而不管
從字面上看=(?)比喻地
動(dòng)態(tài)的=(?)動(dòng)態(tài)
入門(mén):泛化和轉(zhuǎn)移學(xué)習(xí)
深度學(xué)習(xí)在現(xiàn)代上的成功大部分歸功于轉(zhuǎn)移學(xué)習(xí)的效用。轉(zhuǎn)移學(xué)習(xí)使從業(yè)人員可以利用模型先前的培訓(xùn)經(jīng)驗(yàn)來(lái)更快地學(xué)習(xí)新任務(wù)。憑借原始參數(shù)計(jì)數(shù)和先進(jìn)的深度網(wǎng)絡(luò)培訓(xùn)狀態(tài)的計(jì)算要求,轉(zhuǎn)移學(xué)習(xí)對(duì)于實(shí)踐中深度學(xué)習(xí)的可訪問(wèn)性和效率至關(guān)重要。如果您已經(jīng)熟悉遷移學(xué)習(xí)的概念,請(qǐng)?zhí)较乱徊糠郑粤私怆S著時(shí)間的推移,深度NLP模型的繼承情況。
轉(zhuǎn)移學(xué)習(xí)是一個(gè)微調(diào)過(guò)程:與從頭開(kāi)始訓(xùn)練整個(gè)模型相比,僅對(duì)模型的那些特定于任務(wù)的部分進(jìn)行重新訓(xùn)練可以節(jié)省時(shí)間和精力,同時(shí)節(jié)省計(jì)算和工程資源。這是安德烈·卡帕蒂(Andrej Karpathy),杰里米·霍華德(Jeremy Howard)以及深度學(xué)習(xí)社區(qū)中許多其他人所擁護(hù)的“不要成為英雄”的心態(tài)。
從根本上講,轉(zhuǎn)移學(xué)習(xí)包括保留模型的低級(jí)通用組件,而僅重新訓(xùn)練模型中那些專(zhuān)門(mén)的部分。在僅重新初始化一些特定于任務(wù)的層之后,訓(xùn)練整個(gè)預(yù)先訓(xùn)練的模型有時(shí)也是有利的。
深度神經(jīng)網(wǎng)絡(luò)通常可以分為兩部分:學(xué)習(xí)識(shí)別低級(jí)特征的編碼器或特征提取器,以及將這些特征轉(zhuǎn)換為所需輸出的解碼器。這個(gè)卡通示例基于一個(gè)用于處理圖像的簡(jiǎn)化網(wǎng)絡(luò),編碼器由卷積層組成,解碼器由幾個(gè)完全連接的層組成,但是相同的概念也可以輕松應(yīng)用于自然語(yǔ)言處理。
在深度學(xué)習(xí)模型中,編碼器和解碼器之間通常是有區(qū)別的,編碼器是主要學(xué)習(xí)提取低級(jí)特征的一層堆棧,而解碼器是模型的一部分,它將編碼器輸出的特征轉(zhuǎn)換為分類(lèi),像素分割,下一步預(yù)測(cè)等。采用預(yù)先訓(xùn)練的模型并初始化和重新訓(xùn)練新的解碼器可以在更少的訓(xùn)練時(shí)間內(nèi)獲得最新的性能。這是因?yàn)檩^低層趨于學(xué)習(xí)圖像中最通用的特征,特征(如邊緣,點(diǎn)和波紋)(即 圖像模型中的Gabor濾波器)。實(shí)際上,選擇編碼器和解碼器之間的截止點(diǎn)比科學(xué)還重要,但是請(qǐng)參見(jiàn) Yosinki等。2014年 研究人員在其中量化了要素在不同層的可傳遞性。
相同的現(xiàn)象可以應(yīng)用于NLP??梢詫⒔?jīng)過(guò)良好訓(xùn)練的NLP模型訓(xùn)練為通用語(yǔ)言建模任務(wù)(根據(jù)給定的文本預(yù)測(cè)下一個(gè)單詞或字符),可以對(duì)許多更具體的任務(wù)進(jìn)行微調(diào)。這節(jié)省了 從頭訓(xùn)練這些模型之一的 大量能源和經(jīng)濟(jì)成本,這就是我們擁有杰作的杰作的原因。
這兩個(gè)示例均建立在OpenAI的GPT-2之上 ,并且這些以及大多數(shù)其他生成式NLP項(xiàng)目比其他任何地方都更直接地進(jìn)入喜劇領(lǐng)域。但是,使用通用的NLP變壓器(如GPT-2)進(jìn)行的轉(zhuǎn)移學(xué)習(xí)正在迅速?gòu)挠薮赖男逼禄涞讲豢伤甲h的山谷。在這種情況發(fā)生之后,我們將處于可信度的邊緣,在這種可信度下,機(jī)器學(xué)習(xí)模型生成的文本可以用作人工編寫(xiě)副本的替代品。有人猜測(cè)我們距離實(shí)現(xiàn)這些飛躍有多近,但是這可能并不像人們想象的那么重要。NLP模型不一定是莎士比亞,對(duì)于某些應(yīng)用程序而言,有時(shí)可能會(huì)生成足夠好的文本。操作員可以選擇或編輯輸出以實(shí)現(xiàn)所需的輸出質(zhì)量。
在過(guò)去十年中,自然語(yǔ)言處理(NLP)取得了長(zhǎng)足的進(jìn)步。一路走來(lái),有很多不同的方法可以提高諸如情感分析和BLEU 機(jī)器翻譯基準(zhǔn)之類(lèi)的任務(wù)的性能 。已經(jīng)嘗試了許多不同的體系結(jié)構(gòu),其中某些可能更適合給定的任務(wù)或硬件約束。在接下來(lái)的幾節(jié)中,我們將研究用于語(yǔ)言建模的深度學(xué)習(xí)NLP模型的族譜。
遞歸神經(jīng)網(wǎng)絡(luò)
循環(huán)神經(jīng)網(wǎng)絡(luò)中的一個(gè)或多個(gè)隱藏層與先前的隱藏層激活有聯(lián)系。
下面是大數(shù)據(jù)分析深度學(xué)習(xí)在自然語(yǔ)言處理NLP中的應(yīng)用和其他圖中圖形的關(guān)鍵:
語(yǔ)言是序列數(shù)據(jù)的一種。與圖像不同,它按預(yù)定方向一次解析一個(gè)塊。句子開(kāi)頭的文本可能與后面的元素有重要關(guān)系,并且可能需要記住一段文字中更早的概念,以便以后理解信息。有意義的是,語(yǔ)言的機(jī)器學(xué)習(xí)模型應(yīng)該具有某種內(nèi)存,而遞歸神經(jīng)網(wǎng)絡(luò)(RNN)則通過(guò)與先前狀態(tài)的連接來(lái)實(shí)現(xiàn)內(nèi)存。在給定時(shí)間狀態(tài)下,隱藏層中的激活取決于之前一步的激活,這又取決于它們之前的值,依此類(lèi)推,直到語(yǔ)言序列開(kāi)始為止。
由于輸入/輸出數(shù)據(jù)之間的依存關(guān)系可以追溯到序列的開(kāi)頭,因此網(wǎng)絡(luò)實(shí)際上非常深。這可以通過(guò)將網(wǎng)絡(luò)“展開(kāi)”到其順序深度來(lái)可視化,從而揭示導(dǎo)致給定輸出的操作鏈。這是個(gè)非常 明顯的版本中的 消失梯度問(wèn)題。因?yàn)樵诿總€(gè)先前的時(shí)間步長(zhǎng)中,用于為錯(cuò)誤分配功勞的坡度乘以小于1.0的數(shù)字,所以訓(xùn)練信號(hào)會(huì)不斷衰減,并且早期權(quán)重的訓(xùn)練信號(hào)會(huì)變得非常小。解決RNN中長(zhǎng)期依賴(lài)關(guān)系的困難的一種解決方法是完全沒(méi)有。
儲(chǔ)層計(jì)算和回波狀態(tài)網(wǎng)絡(luò)
回波狀態(tài)網(wǎng)絡(luò)就像RNN,但具有使用固定的未經(jīng)訓(xùn)練的權(quán)重的循環(huán)連接。網(wǎng)絡(luò)的此固定部分通常稱(chēng)為存儲(chǔ)庫(kù)。
回聲狀態(tài)網(wǎng)絡(luò)是具有固定循環(huán)連接的RNN的子類(lèi)。使用靜態(tài)遞歸連接避免了用逐漸消失的梯度訓(xùn)練它們的困難,并且在RNN的許多早期應(yīng)用中, 回波狀態(tài)網(wǎng)絡(luò)的 性能優(yōu)于經(jīng)過(guò)反向傳播訓(xùn)練的RNN。一個(gè)簡(jiǎn)單的學(xué)習(xí)層,通常是一個(gè)完全連接的線性層,可以分析儲(chǔ)層的動(dòng)態(tài)輸出。這使得訓(xùn)練網(wǎng)絡(luò)變得更加容易,并且必須初始化儲(chǔ)層以使其具有復(fù)雜且持續(xù)但受限的輸出。
回波狀態(tài)網(wǎng)絡(luò)具有混沌特性,因?yàn)樵缙谳斎肟赡軐?duì)以后的儲(chǔ)層狀態(tài)產(chǎn)生長(zhǎng)期影響。因此,回波狀態(tài)網(wǎng)絡(luò)的功效歸因于“內(nèi)核技巧”(輸入被非線性轉(zhuǎn)換為高維特征空間,可以在其中線性分離輸入)和混亂。實(shí)際上,這可以通過(guò)定義具有隨機(jī)權(quán)重的稀疏循環(huán)連接層來(lái)實(shí)現(xiàn)。
回聲狀態(tài)網(wǎng)絡(luò)和儲(chǔ)層計(jì)算在很大程度上已被其他方法所取代,但事實(shí)證明,它們避免消失的梯度問(wèn)題在某些語(yǔ)言建模任務(wù)(如學(xué)習(xí)語(yǔ)法 或 語(yǔ)音識(shí)別)中很有用 。但是,在使NLP轉(zhuǎn)移學(xué)習(xí)成為可能的廣義語(yǔ)言建模中,儲(chǔ)層計(jì)算從未產(chǎn)生太大影響。
LSTM和門(mén)控RNN
長(zhǎng)期短期記憶引入了門(mén),以選擇性地將激活保持在所謂的單元狀態(tài)。
LSTM由Sepp Hochreiter和JürgenSchmidhuber [pdf]于1997年發(fā)明,旨在 使用“恒定誤差輪播”或CEC解決消失的梯度問(wèn)題。CEC是一個(gè)持久的門(mén)控細(xì)胞狀態(tài),周?chē)欠蔷€性神經(jīng)層,這些神經(jīng)層打開(kāi)和關(guān)閉“門(mén)”(使用S形激活函數(shù)之類(lèi)的值在0和1之間壓縮)。這些非線性層選擇應(yīng)將哪些信息合并到單元狀態(tài)激活中,并確定傳遞給輸出層的內(nèi)容。單元狀態(tài)層本身不具有激活功能,因此,當(dāng)其值以接近1.0的門(mén)值從一個(gè)時(shí)間步長(zhǎng)傳遞到另一個(gè)時(shí)間步長(zhǎng)時(shí),漸變可以在輸入序列中跨很長(zhǎng)的距離完整地向后流動(dòng)。已經(jīng)有了很多的發(fā)展和 新版本適用于改進(jìn)培訓(xùn),簡(jiǎn)化參數(shù)計(jì)數(shù)并應(yīng)用于新領(lǐng)域的LSTM。這些改進(jìn)中最有用的方法之一是Gers等人開(kāi)發(fā)的忘記門(mén) 。在2000年 (如圖所示),如此之多,以至于帶有遺忘門(mén)的LSTM通常被認(rèn)為是“標(biāo)準(zhǔn)” LSTM。
門(mén)控或乘法RNN對(duì)來(lái)自最后一個(gè)隱藏狀態(tài)的輸出使用逐個(gè)元素的乘法運(yùn)算,以確定在當(dāng)前時(shí)間步將合并到新的隱藏狀態(tài)中的內(nèi)容。
門(mén)控或乘法RNN(MRNN)與LSTM非常相似,盡管不太復(fù)雜。像LSTM一樣,MRNN使用乘法運(yùn)算來(lái)控制網(wǎng)絡(luò)的最后隱藏狀態(tài),并且門(mén)限值由接收來(lái)自輸入數(shù)據(jù)的神經(jīng)層確定。Sutskever 等人在2011年將MRNN用于字符級(jí)語(yǔ)言建模 。 [ pdf ]并擴(kuò)展到Chung等人在更深的MRNN(門(mén)控反饋RNN)中跨深度選通 。 在2015年。也許因?yàn)樗鼈兏?jiǎn)單,所以在某些語(yǔ)言建模方案上,MRNN和門(mén)控反饋RNN可以勝過(guò)LSTM,具體取決于誰(shuí)來(lái)處理它們。
帶有遺忘門(mén)的LSTM已成為各種引人注目的自然語(yǔ)言處理模型的基礎(chǔ),其中包括OpenAI的“ 無(wú)監(jiān)督情感神經(jīng)元 ”(論文),以及 2016年百度神經(jīng)機(jī)器翻譯模型的性能大幅提升。在通過(guò)無(wú)監(jiān)督情感神經(jīng)元模型進(jìn)行轉(zhuǎn)移學(xué)習(xí)的演示之后,塞巴斯蒂安·魯?shù)?Sebastian Ruder)和杰里米·霍華德(Jeremy Howard)開(kāi)發(fā)了無(wú)監(jiān)督語(yǔ)言模型用于文本分類(lèi)的微調(diào) (ULM-FiT),該方法利用預(yù)訓(xùn)練來(lái)獲得最新的性能。六個(gè)特定的文本分類(lèi)數(shù)據(jù)集。
盡管ULM-FiT和Unsupervised Sentiment Neuron不存在,但百度基于LSTM的翻譯??網(wǎng)絡(luò)改進(jìn)的關(guān)鍵部分是注意力的廣泛應(yīng)用,不僅是工程學(xué)上的關(guān)注,還包括學(xué)習(xí)機(jī)器學(xué)習(xí)中特定部分的特定機(jī)器學(xué)習(xí)概念。輸入數(shù)據(jù)。對(duì)NLP模型的關(guān)注是一個(gè)很強(qiáng)大的想法,它導(dǎo)致了下一代語(yǔ)言模型的發(fā)展,并且可以說(shuō)是NLP中當(dāng)前轉(zhuǎn)移學(xué)習(xí)的功效的原因。
輸入變壓器
變壓器模型中使用的注意機(jī)制概念的圖形描述來(lái)自“注意就是您所需要的”。在序列的給定點(diǎn)上,對(duì)于每個(gè)數(shù)據(jù)向量,權(quán)重矩陣會(huì)生成鍵,查詢(xún)和值張量。注意機(jī)制使用鍵和查詢(xún)向量對(duì)值向量進(jìn)行加權(quán),該值向量將與其他所有鍵,查詢(xún),值集一起受到softmax激活,并求和以產(chǎn)生到下一層的輸入。
諸如百度的2016 NMT 網(wǎng)絡(luò)之類(lèi)的語(yǔ)言模型中使用的注意力機(jī)制運(yùn)行得很好,而在機(jī)器學(xué)習(xí)硬件加速器變得足夠強(qiáng)大的時(shí)候,導(dǎo)致開(kāi)發(fā)人員提出了一個(gè)問(wèn)題:“如果我們僅使用注意力一個(gè)人呢?” 眾所周知,答案是關(guān)注是實(shí)現(xiàn)最新的NLP模型所需的全部(這是 介紹僅關(guān)注模型體系結(jié)構(gòu)的論文的名稱(chēng))。
這些模型稱(chēng)為轉(zhuǎn)換器,與LSTM和其他RNN不同,轉(zhuǎn)換器同時(shí)考慮整個(gè)序列。他們學(xué)會(huì)使用注意力來(lái)加權(quán)輸入文本序列中每個(gè)點(diǎn)的影響。上圖顯示了原始Transformer模型使用的注意力機(jī)制的簡(jiǎn)單解釋?zhuān)强梢詮?Jay Alammar 的論文或此博客文章中獲得更深入的解釋 。
與同時(shí)連接的模型不同,同時(shí)考慮整個(gè)序列似乎將模型限制為只能解析固定長(zhǎng)度的序列。但是,轉(zhuǎn)換器使用位置編碼(在原始的Transformer中,它基于正弦嵌入矢量),可以方便地以可變的輸入序列長(zhǎng)度進(jìn)行正向傳遞。變壓器架構(gòu)的一次性方法確實(shí)帶來(lái)了嚴(yán)格的內(nèi)存需求,但是在高端現(xiàn)代硬件上進(jìn)行培訓(xùn)并簡(jiǎn)化內(nèi)存是高效的,并且變壓器的計(jì)算需求處于當(dāng)前和該領(lǐng)域最新發(fā)展的最前沿。
NLP中深層神經(jīng)網(wǎng)絡(luò)的結(jié)論和警告
在過(guò)去的兩到三年中,Deep NLP確實(shí)已經(jīng)成為自己的一員,并且它已經(jīng)開(kāi)始有效地?cái)U(kuò)展到應(yīng)用程序之外的機(jī)器翻譯和愚蠢的文本生成領(lǐng)域。NLP的發(fā)展繼續(xù)追隨計(jì)算機(jī)視覺(jué)的象征性腳步,不幸的是,其中包括許多我們以前所見(jiàn)過(guò)的相同的失誤,旅行和絆腳石。
其中一個(gè)最緊迫的挑戰(zhàn) 是“聰明漢斯效應(yīng)”,20世紀(jì)初的著名表演的馬而得名。簡(jiǎn)而言之, 漢斯 是一匹德國(guó)馬,作為算術(shù)天賦的馬在公眾面前展出,能夠回答有關(guān)日期和計(jì)數(shù)的問(wèn)題。實(shí)際上,他反而是他的教練威廉·馮·奧斯汀(Wilhelm von Osten)解釋潛意識(shí)線索的專(zhuān)家。在機(jī)器學(xué)習(xí)中,“聰明漢斯”效應(yīng)是指通過(guò)學(xué)習(xí)訓(xùn)練數(shù)據(jù)集中的虛假相關(guān)性來(lái)獲得令人印象深刻但最終無(wú)用的性能的模型。
例子包括根據(jù)識(shí)別出 病情較重的醫(yī)院所使用的機(jī)器的類(lèi)型在X射線中對(duì)肺炎進(jìn)行分類(lèi),通過(guò)重復(fù)最后提到的名字來(lái)回答有關(guān)文本中描述的人的問(wèn)題 以及 現(xiàn)代 顱相學(xué)。盡管大多數(shù)NLP項(xiàng)目在無(wú)法正常工作時(shí)只會(huì)產(chǎn)生錯(cuò)誤的喜劇(例如,上述配方和地牢生成器),但缺乏對(duì)NLP和其他機(jī)器學(xué)習(xí)模型如何分解的理解,為現(xiàn)代偽科學(xué)的論證鋪平了道路。以及相應(yīng)的不良政策。這對(duì)業(yè)務(wù)也不利。想象一下,花費(fèi)數(shù)千或數(shù)百萬(wàn)美元來(lái)開(kāi)發(fā)支持NLP的服裝店,該服裝店將返回對(duì)無(wú)條紋襯衫結(jié)果的搜索查詢(xún),例如無(wú)條紋 Github回購(gòu)襯衫中的結(jié)果。
顯然,盡管最近的進(jìn)步使深層自然語(yǔ)言處理更加有效和易于使用,但在展示任何與人類(lèi)理解或綜合相近的東西之前,該領(lǐng)域還有很長(zhǎng)的路要走。盡管存在缺陷(沒(méi)有Cortana,沒(méi)有人希望您將所有話語(yǔ)都路由到Edge瀏覽器上的Internet搜索中),但是NLP是當(dāng)今廣泛使用的許多產(chǎn)品和工具的基礎(chǔ)。直接符合NLP的缺點(diǎn),對(duì)系統(tǒng)嚴(yán)格評(píng)估語(yǔ)言模型的需求從未如此清晰。顯然,不僅要改進(jìn)模型和數(shù)據(jù)集,而且還要以有益的方式打破這些模型,這是重要的工作。
填寫(xiě)下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽(tīng)!怕錢(qián)不夠?可先就業(yè)掙錢(qián)后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!
?2007-2022/ mwtacok.cn 北京漫動(dòng)者數(shù)字科技有限公司 備案號(hào): 京ICP備12034770號(hào) 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc