旗下產(chǎn)業(yè): A產(chǎn)業(yè)/?A實(shí)習(xí)/?A計(jì)劃
全國統(tǒng)一咨詢熱線:010-5367 2995
首頁 > 熱門文章 > 大數(shù)據(jù)分析 > 大數(shù)據(jù)分析python自然語言處理NLP常用庫盤點(diǎn)

大數(shù)據(jù)分析python自然語言處理NLP常用庫盤點(diǎn)

時(shí)間:2020-08-27來源:mwtacok.cn點(diǎn)擊量:作者:Sissi
時(shí)間:2020-08-27點(diǎn)擊量:作者:Sissi



  今天,我們要根據(jù)我們的經(jīng)驗(yàn)來概述和比較最流行,最有用的自然語言處理庫。
 

  今天,自然語言處理(NLP)變得非常流行,在深度學(xué)習(xí)發(fā)展的背景下,自然語言處理(NLP)變得尤其引人注目。NLP是人工智能的一個(gè)領(lǐng)域,旨在理解和提取文本中的重要信息,并根據(jù)文本數(shù)據(jù)進(jìn)行進(jìn)一步的培訓(xùn)。主要任務(wù)包括語音識(shí)別和生成,文本分析,情感分析,機(jī)器翻譯等。
 

  在過去的幾十年中,只有經(jīng)過適當(dāng)?shù)恼Z言教育的專家才能從事自然語言處理。除了數(shù)學(xué)和機(jī)器學(xué)習(xí),他們還應(yīng)該熟悉一些關(guān)鍵的語言概念?,F(xiàn)在,我們可以使用已經(jīng)編寫的NLP庫。它們的主要目的是簡化文本預(yù)處理。我們可以專注于構(gòu)建機(jī)器學(xué)習(xí)模型和超參數(shù)微調(diào)。
 

  有許多旨在解決NLP問題的工具和庫。今天,我們要根據(jù)我們的經(jīng)驗(yàn)來概述和比較最流行,最有用的自然語言處理庫。您應(yīng)該了解,我們查看的所有庫都只有部分重疊的任務(wù)。因此,有時(shí)很難直接比較它們。我們將介紹一些功能,并僅比較那些可能的庫。
 

  總體概述
 

  1)NLTK (自然語言工具包)用于諸如令牌化,詞法去除,詞干提取,解析,POS標(biāo)記等任務(wù)。該庫具有用于幾乎所有NLP任務(wù)的工具。

  2)Spacy 是NLTK的主要競爭對手。這兩個(gè)庫可用于相同的任務(wù)。

  3)Scikit-learn 提供了一個(gè)大型機(jī)器學(xué)習(xí)庫。此處還提供了用于文本預(yù)處理的工具。

  4)Gensim 是用于主題和向量空間建模,文檔相似性的軟件包。

  5) Pattern 庫的一般任務(wù) 是充當(dāng)Web挖掘模塊。因此,它僅支持NLP作為輔助任務(wù)。

  6)Polyglot 是NLP的另一個(gè)python軟件包。它不是很流行,但也可以用于各種NLP任務(wù)。
 

  為了使比較更加生動(dòng),我們準(zhǔn)備了一個(gè)表,顯示了庫的優(yōu)缺點(diǎn)。
 

大數(shù)據(jù)分析python自然語言處理NLP常用庫盤點(diǎn)

 

  結(jié)論
 

  在大數(shù)據(jù)分析python自然語言處理NLP常用庫盤點(diǎn)中,我們比較了幾種流行的自然語言處理庫的某些功能。盡管大多數(shù)工具都提供了用于重疊任務(wù)的工具,但有些工具針對特定問題使用了獨(dú)特的方法。無疑,當(dāng)今最流行的NLP軟件包是NLTK和Spacy。它們是NLP領(lǐng)域的主要競爭對手。我們認(rèn)為,它們之間的區(qū)別在于解決問題的方法的一般哲學(xué)。
 

  NLTK更具學(xué)術(shù)性。您可以使用它嘗試不同的方法和算法,將它們組合起來,等等。Spacy卻為每個(gè)問題提供了一種即用的解決方案。您不必考慮哪種方法更好:Spacy的作者已經(jīng)考慮了這一點(diǎn)。同樣,Spacy速度非???比NLTK快幾倍)。缺點(diǎn)之一是Spacy支持的語言數(shù)量有限。但是,支持的語言數(shù)量一直在增加。因此,我們認(rèn)為Spacy在大多數(shù)情況下是最佳選擇,但是如果您想嘗試一些特別的東西,則可以使用NLTK。
 

  盡管這兩個(gè)庫很流行,但仍有許多不同的選項(xiàng),選擇哪種NLP軟件包取決于您要解決的特定問題。因此,如果您碰巧知道其他有用的NLP庫,請?jiān)谠u論部分告知我們的讀者。
 

  ActiveWizards是一個(gè)由數(shù)據(jù)科學(xué)家和工程師組成的團(tuán)隊(duì),專門致力于數(shù)據(jù)項(xiàng)目(大數(shù)據(jù),數(shù)據(jù)科學(xué),機(jī)器學(xué)習(xí),數(shù)據(jù)可視化)。核心專業(yè)知識(shí)領(lǐng)域包括數(shù)據(jù)科學(xué)(研究,機(jī)器學(xué)習(xí)算法,可視化和工程),數(shù)據(jù)可視化(d3.js,Tableau等),大數(shù)據(jù)工程(Hadoop,Spark,Kafka,Cassandra,HBase,MongoDB等),以及數(shù)據(jù)密集型Web應(yīng)用程序開發(fā)(RESTful API,F(xiàn)lask,Django,Meteor)。


 

預(yù)約申請免費(fèi)試聽課

填寫下面表單即可預(yù)約申請免費(fèi)試聽!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!

?2007-2021/北京漫動(dòng)者教育科技有限公司版權(quán)所有
備案號:京ICP備12034770號

?2007-2022/ mwtacok.cn 北京漫動(dòng)者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc

京公網(wǎng)安備 11010802035704號

網(wǎng)站地圖