《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 設計應用 > 基于HybridDL模型的文本相似度檢測方法
基于HybridDL模型的文本相似度檢測方法
2020年電子技術應用第6期
肖 晗1,毛雪松1,朱澤德2
1.武漢科技大學 信息科學與工程學院,湖北 武漢430081; 2.中科院合肥技術創(chuàng)新工程院,安徽 合肥230031
摘要: 為了提高文本相似度檢測算法的準確度,提出一種結(jié)合潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)與Doc2Vec模型的文本相似度檢測方法,并把該算法得到的模型命名為HybridDL模型。該算法通過Doc2Vec對文檔訓練得到文檔向量,再利用LDA模型得到文檔主題與各個主題下特征詞出現(xiàn)的概率,對文檔中各主題及特征詞計算概率加權和,映射到Doc2Vec文檔向量中。實驗結(jié)果表明,新算法模型比傳統(tǒng)的Doc2Vec模型對相似文本的判斷更加敏感,在文本相似度檢測上具有更高的準確度。
中圖分類號: TN957.52;TP391.1
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.191257
中文引用格式: 肖晗,毛雪松,朱澤德. 基于HybridDL模型的文本相似度檢測方法[J].電子技術應用,2020,46(6):28-31,35.
英文引用格式: Xiao Han,Mao Xuesong,Zhu Zede. Text similarity detection method based on HybridDL model[J]. Application of Electronic Technique,2020,46(6):28-31,35.
Text similarity detection method based on HybridDL model
Xiao Han1,Mao Xuesong1,Zhu Zede2
1.School of Information Science and Engineering,Wuhan University of Science and Technology,Wuhan 430081,China; 2.Institute of Technology Innovation,Hefei Institutes of Physical Science,Chinese Academy of Sciences,Hefei 230031,China
Abstract: In order to improve the accuracy of text similarity detection algorithm, this paper proposes a text similarity detection method combining latent Dirichlet Allocation(LDA) and Doc2Vec model, and names the model obtained by the algorithm HybridDL model. This algorithm obtains the document vector through Doc2Vec training of the document, and then obtains the probability of the occurrence of the document topic and the feature words under each topic with the LDA model, calculates the probability weighted sum of each topic and feature words in the document, and maps them to the Doc2Vec document vector. Experimental results show that the new algorithm model is more sensitive to the judgment of similar text than the traditional Doc2Vec model, and has higher accuracy in the detection of text similarity.
Key words : Doc2Vec;latent Dirichlet allocation;text representation;text similarity

0 引言

    在當下這個信息時代,互聯(lián)網(wǎng)已經(jīng)成為人們生活中不可或缺的一部分,在機器計算能力大幅度提高的同時,獲得的數(shù)據(jù)也呈爆炸式增長。文本數(shù)據(jù)作為數(shù)據(jù)中的重要組成部分,量大且關鍵。因此,從大量的文本數(shù)據(jù)中高效地提取出滿足人們需要的信息成為了當下的熱門話題。在自然語言處理領域,通過計算機處理文本數(shù)據(jù)時,由于語言的多樣性,相同的詞語在不同的句子或者語境中表達出來的意思可能會存在差異,導致計算機無法直接并準確地獲取文本特征[1]。所以,如何從語料中學習到好的文本表示,如何提升文本表示模型的性能,對于后續(xù)自然語言處理的相關研究,如機器翻譯、文本分類[2]、情感分析[3]、問答系統(tǒng)、文本檢索等,具有十分深遠的意義。

    建立文本表示模型包括對詞、主題、語句、文檔等各個級別任務進行建模。對于詞級別的文本表示模型,通常使用被稱作詞向量的數(shù)學表示方法來處理。詞向量顧名思義是一種通過向量來表示句子中詞語的方法,向量中的每一維都在實數(shù)范圍內(nèi)進行取值操作[4]。

    詞向量最早由BENGIO Y、DUCHARME R、VINCENT P等人提出[5],其傳統(tǒng)做法是One-hot表示方法,即將不同詞用相對應的維度很高的向量來表示,其中,向量的維度對應字典大小,在各個詞的向量中只存在一個位置為1,其余位置為0。該表示模型十分簡潔,便于理解,但是由于數(shù)據(jù)稀疏會造成維數(shù)災難,并且該模型沒有考慮詞與詞之間的關聯(lián)性,準確度不高。

    近年來,被稱作詞的分布式表示的向量表示得到了較為廣泛的應用,理論思路是通過訓練,將句子中的各詞語映射到N維向量空間中。該方法在One-hot的基礎上,聯(lián)系了前后文的語義信息,使語義相近詞語所映射得到的詞向量比較接近,而One-hot法得到的是毫無關聯(lián)的詞向量。即可以通過詞與詞在空間中的距離計算詞與詞在語義上的相關性,距離越小則語義越相關,距離越大則越無關。2013年,MIKOLOV T等人提出利用神經(jīng)網(wǎng)絡模型來訓練分布式詞向量[6],所得到的模型被稱作Word2Vec,該模型可以通過前后文的詞匯預測中心詞或者通過中心詞來預測前后文的詞匯。它相當于一個里程碑,現(xiàn)在也被廣泛使用。Doc2Vec是Word2Vec的擴展,于2014年由MIKOLOV T等人提出[7],同樣用于學習文檔表示。該模型在構建的過程中,在獲取上下文單詞信息的同時,增加了一個段落標記,能夠更精確地表示原始文本。但是在實際應用中Doc2Vec需要大量數(shù)據(jù)進行訓練才能有較好的效果,當數(shù)據(jù)量不足時,提取信息不充分,結(jié)果產(chǎn)生的偶然性較大。

    主題模型由于可以發(fā)掘深層次的語義信息,因此在構建文本表示模型時也可以達到較好的效果。2003年BLEI D M、JORDAN M I等人提出了潛在狄利克雷分布[8],首次將狄利克雷先驗分布加入到文檔、主題、詞的多項式分布中,效果顯著。LDA是一種從大量文檔中發(fā)現(xiàn)潛在主題的概率主題模型,它從文本的統(tǒng)計學特性入手,將文本語料庫映射到各個主題空間中,從而發(fā)掘文本中各主題與詞語之間的對應關系,得到文本的主題分布[9]。它通常被認為是一種通過對不同主題中的單詞進行分組的特征約簡方法,因此可以將文檔映射到更低的維度空間。但LDA沒有考慮詞語的前后文關聯(lián),構建出的文本向量比較稀疏,在表示原始文本的信息方面效果一般。

    本文嘗試將LDA和Doc2Vec進行融合。LDA從每個文檔到所有主題的全局關系建模,而Doc2Vec則通過從目標單詞的上下文中學習來捕獲這些關系。發(fā)揮這兩種模型各自的優(yōu)點,從而產(chǎn)生比傳統(tǒng)模型更高的準確率判斷。




論文詳細內(nèi)容請下載http://m.jysgc.com/resource/share/2000002836




作者信息:

肖  晗1,毛雪松1,朱澤德2

(1.武漢科技大學 信息科學與工程學院,湖北 武漢430081;

2.中科院合肥技術創(chuàng)新工程院,安徽 合肥230031)


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權禁止轉(zhuǎn)載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
久久亚洲午夜电影| 国产精品进线69影院| 亚洲欧美久久| 制服丝袜激情欧洲亚洲| 亚洲国产你懂的| 欧美在线精品一区| 午夜精品久久久| 在线视频欧美日韩| 一区二区免费看| 99在线|亚洲一区二区| 日韩视频不卡中文| 99国产精品久久久| 亚洲日本一区二区| 亚洲韩国日本中文字幕| 亚洲国产成人av在线| …久久精品99久久香蕉国产| 国产亚洲激情| 国语自产精品视频在线看8查询8 | 国产一级一区二区| 国产日韩免费| 国产真实久久| 伊人婷婷久久| 亚洲国产成人在线播放| 亚洲黄色性网站| 亚洲剧情一区二区| 在线亚洲免费| 午夜在线一区二区| 亚洲电影在线播放| 亚洲精选一区二区| 亚洲一区二区三区777| 亚洲免费一在线| 久久国产精品免费一区| 久久视频在线视频| 欧美激情综合在线| 欧美先锋影音| 国产亚洲精品bv在线观看| 红桃视频国产精品| 亚洲国产小视频在线观看| 99国产一区| 午夜视频精品| 亚洲国产美女精品久久久久∴| 日韩网站在线观看| 亚洲夜晚福利在线观看| 欧美一区二区视频免费观看| 久久亚洲影音av资源网| 欧美精品成人在线| 国产精品视频1区| 国内精品国语自产拍在线观看| 亚洲高清在线观看一区| 日韩亚洲不卡在线| 欧美一区二区三区播放老司机| 亚洲三级电影全部在线观看高清| 中文久久精品| 久久久xxx| 欧美福利视频网站| 国产精品久久国产三级国电话系列 | 亚洲一区精品电影| 久久成人免费网| 一本久道久久久| 久久精品夜色噜噜亚洲a∨| 欧美激情网友自拍| 国产精品三级视频| 亚洲激情一区二区三区| 亚洲免费在线视频一区 二区| 亚洲激情成人在线| 亚洲欧美日韩一区二区在线| 美女视频黄免费的久久| 国产精品国产三级国产专区53 | 在线一区二区日韩| 亚洲国产高清在线| 亚洲一区欧美激情| 欧美chengren| 国产日韩欧美综合一区| 亚洲精品在线看| 久久国产精品久久w女人spa| 亚洲一区二区精品在线| 老司机一区二区三区| 国产精品久久中文| 亚洲日本成人女熟在线观看| 性做久久久久久久久| 夜夜嗨av一区二区三区中文字幕| 久久精品在线观看| 国产精品福利网| 亚洲人成人77777线观看| 欧美诱惑福利视频| 亚洲一区在线播放| 欧美成人小视频| 韩日欧美一区二区三区| 亚洲影视综合| 一区二区欧美国产| 久热综合在线亚洲精品| 国产视频在线观看一区二区三区| 洋洋av久久久久久久一区| 亚洲国产精品久久精品怡红院| 欧美一区二区性| 国产精品久久久久77777| 亚洲日本电影| 亚洲日韩欧美视频一区| 久久一区二区精品| 国产一区二区三区在线观看精品 | 亚洲日本va午夜在线电影 | 国产精品vvv| 日韩午夜电影av| 亚洲精品日韩久久| 久久琪琪电影院| 国产私拍一区| 午夜久久美女| 欧美一区二区三区视频在线观看| 欧美图区在线视频| 日韩一级黄色大片| 一区二区三区色| 欧美日本韩国一区二区三区| 亚洲国产精品日韩| 亚洲精品之草原avav久久| 免费高清在线视频一区·| 狠狠入ady亚洲精品经典电影| 欧美一区影院| 久久精品在线观看| 国产视频在线观看一区 | 欧美主播一区二区三区美女 久久精品人 | 国产精品久久久久久久久免费桃花 | 欧美一区二区三区在线观看| 欧美一区不卡| 国产欧美日韩精品专区| 亚洲综合日韩| 久久gogo国模裸体人体| 国产婷婷一区二区| 久久高清国产| 久久综合激情| 亚洲风情亚aⅴ在线发布| 亚洲国产日韩欧美一区二区三区| 免费亚洲一区二区| 亚洲国产福利在线| 亚洲精选久久| 欧美视频四区| 亚洲视频在线观看视频| 欧美亚洲网站| 国产在线精品一区二区中文 | 亚洲高清网站| 欧美国产成人精品| 亚洲麻豆视频| 翔田千里一区二区| 国产亚洲在线| 亚洲韩日在线| 欧美啪啪成人vr| 一本一本久久a久久精品牛牛影视| 亚洲综合色激情五月| 国产欧美日韩在线播放| 久久激情综合| 欧美成人午夜激情| 一区二区三区毛片| 欧美在线1区| 伊人久久综合97精品| 99国产精品私拍| 国产精品日韩欧美大师| 久久精品免费| 欧美日韩午夜剧场| 午夜精品视频在线观看| 免播放器亚洲| 一本色道久久综合狠狠躁篇的优点| 欧美一区二区高清在线观看| 国语自产精品视频在线看一大j8| 亚洲每日更新| 国产精品一区一区三区| 亚洲国产欧美不卡在线观看| 欧美日韩国产丝袜另类| 午夜伦欧美伦电影理论片| 女同一区二区| 亚洲一区二区欧美| 欧美99在线视频观看| 一本色道久久加勒比88综合| 欧美在线一区二区| 91久久国产自产拍夜夜嗨| 欧美一区二区大片| 亚洲激情av在线| 欧美亚洲自偷自偷| 91久久精品www人人做人人爽| 亚洲欧美日本日韩| 亚洲高清久久久| 欧美在线精品免播放器视频| 亚洲成人在线视频网站| 亚洲欧美日韩视频一区| 亚洲成色最大综合在线| 亚洲欧美日韩专区| 亚洲欧洲精品一区二区| 久久精品2019中文字幕| 亚洲精品系列| 裸体素人女欧美日韩| 亚洲一区二区三区免费观看| 米奇777超碰欧美日韩亚洲| 亚洲视频网站在线观看| 欧美成黄导航| 欧美一区二区大片| 欧美色欧美亚洲另类七区| 亚洲国产第一页| 国产日韩欧美二区| 亚洲一区二区伦理| 亚洲经典在线| 久久免费黄色| 亚洲欧美制服另类日韩|