《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 業界動態 > 一種改進的短文本流主題演化模型

一種改進的短文本流主題演化模型

2017-05-27
作者:林特,趙曉東,柳先輝
來源:2017年微型機與應用第8期

  趙曉東,柳先輝

 ?。ㄍ瑵髮W 電子與信息工程學院,上海 201804)

        摘要:在線主題模型基于先時間離散后主題建模的思想,存在文本流切分帶來的模型無法平滑過渡的問題,同時時間片大小的選擇對在線話題的抽取質量影響顯著。提出了一種新的在線短文本主題演化模型OnlineBTOT。模型在遺傳計算方法上進行了改良,不僅考慮時間片上的總體主題強度對遺傳權重的影響,也將時間片上主題強度的變化納入先驗參數的計算中。同時,為了得到主題強度在時間片上的連續變化和克服短文本的稀疏性,在單時間片上結合了TOT模型和BTM模型。通過在微博短文本語料上與OLDA模型和OBTM模型的對比實驗,證明OnlineBTOT模型能夠有效地分析在線短文本流的主題演化。

  關鍵詞:主題演化;短文本;Online-BTOT;主題模型

  中圖分類號:TP181文獻標識碼:ADOI: 10.19358/j.issn.1674-7720.2017.08.016

  引用格式:林特,趙曉東,柳先輝.一種改進的短文本流主題演化模型[J].微型機與應用,2017,36(8):48-50,55.

0引言

  隨著互聯網愈發傾向移動化,新的信息交互方式,比如微博、微信、朋友圈,公眾號等社交網絡和自媒體已成為公眾日常生活須臾不可離的一部分。新的交互方式塑造了輕量化和高頻率的新形式的移動交互語言——短文本。短文本規模龐大,基于其上的話題演化分析能夠有效地從冗雜的文檔集中提取話題按時間順序的發展演化過程,從而幫助公眾分析話題在強度和內容上隨時間的變化。因此,短文本的話題演化研究具有重要的應用背景。

  近年來,概率主題模型在文本挖掘領域受到廣泛的關注和研究。BLEI D M等人提出的LDA(Latent Dirichlet Allocation)模型[1]基于詞袋假設,認為文檔是由特定的隱含主題序列生成的,奠定了主題模型的基礎。本質上,傳統的主題模型在主題抽取方面隱式基于文本層面的詞共現現象。然而,短文本在文本層面上的稀疏性致使傳統的主題模型在短文本的隱含主題抽取的準確性普遍不高。為了克服稀疏性, Yan Xiaohui等人提出的BTM(Biterm Topic Model)模型[2]通過顯式地對共現詞對建模,同時將文本層面的詞共現現象擴大到整個文本集層面,從而克服了短文本的稀疏性,主題抽取的準確性較傳統主題模型有顯著提高。

  借助主題模型,通過引入時間信息,研究話題隨時間的演化,是當前主題演化的研究熱點。研究者們提出的方法大致分為兩類。一是先主題抽取后離散,反映主題在時間上的強度變化的TOT(Topic Over Time)模型[3]和記錄主題內容和強度演化信息的DTM(Dynamic Topic Model)模型[4]都屬于此范疇,由于需要全局建模,不適合在線文本流分析。二是按時間先離散,OLDA(OnlineLDA)模型[5]通過遺傳計算的方法將歷史分布作為當前時間片的先驗參數,從而具備在線處理的能力。但時間片大小的選擇、遺傳權重的確定對話題抽取質量影響顯著。

  針對短文本的稀疏性問題和在線主題模型存在的問題,本文采用按時間先離散方法的同時在每個時間片上引入每篇文本的時間信息,結合BTM和TOT模型的思想建模主題強度在時間片上的連續變化,從主題強度和主題強度變化兩方面改善在線主題模型在主題遺傳度上的計算方法。

1相關工作

  1.1BTM模型

  BTM模型由Yan Xiaohui等人提出,基于共詞頻率愈大愈傾向于同一個主題的思想,不同的是,模型模擬詞對的產生過程,通過整合整個文檔集的詞對克服文本稀疏性。假設α和β是模型的Dirichlet先驗。文本集詞對的產生過程可以描述如下:

  (1)對于每個主題,從參數β的Dirichlet分布中采樣k~Dir(β),采樣K次;

  (2)對于整個文本集,從參數α的Dirichlet分布中采樣θ~Dir(α),采樣1次;

  (3)對于每個詞對b,從θ多項分布中采樣詞對主題z~Multi(θ),從k多項分布中采樣兩個詞wi和wj。

  1.2OLDA模型

  OLDA模型根據文本流的時間信息將文本流分成多個時間片,在每個時間片上采用K個主題的LDA模型對文本集建模,超參數β來源于對歷史時間片中主題詞個數估計的遺傳。歷史信息保存在三維矩陣B中,Bt-1k表示主題k在t-1時間片上的主題詞的個數向量k,并通過一個權重向量ωδ,決定歷史數據對當前文本流St先驗參數的影響程度。因此,時間片t上的主題詞分布的先驗參數計算如下:

  βtk=Bt-1kωδ(1)

  歷史信息的遺傳使各個時間片中推斷出的主題可以自動對齊,同時通過DJS距離度量算法:

  `1OKXB_HB]IV_CS4W@8WSAR.png

  計算鄰近時間片上的主題相似度,從而發現新主題。

2改進的短文本流主題演化模型

  2.1Online-BTOT模型

  單時間片上,模型隱含主題的抽取不僅受詞共現的影響,還受到時間戳信息的影響。文本時間戳信息是連續的,為了避免離散化,時間戳信息將被標準化以滿足0~1上的Beta分布。模型模擬了短文本集中詞對和時間戳的產生過程。模型的概率圖模型如圖1所示。

  

001.jpg

  對于一個給定的含有ND個文本的文本集,每篇文本通過詞對提取,假設總共包含NB個詞對,每個詞對的格式如bi=(wi,1,wi,2),同時對應源文本的時間戳信息ti。假設文本集有K個主題,W個不同的詞。文本集主題對應K維多項分布={θk}Kk=1,主題詞分布可以表示成K×W維的矩陣Φ,每個主題上強度時間滿足Beta(ψk,0,ψk,1)分布,為了簡化模型計算和隱參數估計的難度,模型采用共軛分布的思想,θ,k采樣于超參數為,的Dirichlet分布。模型的聯合概率:

  $JE{)YUT2%)NT37_$T]%RN8.png

  2.2參數估計

  與LDA模型類似,模型隱參數,,Φ,Ψ無法確定,因此采用Gibbs采樣方法對隱參數做近似估計。通過推導可以得出zi的全條件概率:

  Z8L@_ABWDT(4F74@2}33_}2.png

  向量的第k項n(k)表示詞對集合中屬于主題k的詞對個數。向量nk的第w項n(w)k表示主題k下的詞w出現的詞數。使用矩估計方法估計Ψ:

  T{@BD(_)SL3$2$F$~[KU@P9.png

  2.3遺傳計算

  為了將歷史文本估計得到的主題強度和主題強度的變化都作為先驗知識納入到當前時間片的先驗參數計算中,本文提出了一種新的采用積分形式的遺傳權重計算方法,概率圖模型如圖1所示。  假設當前時間為T,定義δ×K維矩陣NT-1α為前δ個時間片的主題詞對個數矩陣,δ×K×W維矩陣NT-1β為前δ個時間片的主題詞個數矩陣,λT-1為前δ個時間片預設的權重向量,ψT-1為前δ個時間片滿足Beta分布的強度變化的參數矩陣,其中ψj,k表示時間片j、主題k的擬合主題強度變化的Beta函數的參數對(ψj,k,0,ψj,k,1)。時間片j主題k的遺傳系數可以計算如下:

  `]T${R73N95TYEXJHYG}@(J.png

3實驗

  本文通過抓取20151112至20151119新浪微博平臺上的總計6 051 518條微博作為話題演化和分析的實驗數據集。以OLDA和OBTM(OnlineBTM)兩種主題演化模型作為參照,對本文提出的模型的有效性進行驗證。OBTM采用了Yan Xiaohui的開源代碼,OLDA采用了GibbsLDA++的開源實現。實驗均在搭載OS X系統,配置4 GB內存和Intel Core i5 1.5 GHz CPU的硬件環境下進行。實驗參數K通過調優,選取50,初始值設定為50/K,β初始值設定為0.005,Gibbs采樣迭代頻次設定為100次,遺傳系數λ取經驗值0.6,同時Online-BTOT的遺傳窗口設定為4。

  預處理階段:以1天為時間單元切分數據集,通過nlpir分詞工具對微博做分詞處理,過濾@開頭的詞和停用詞,然后過濾詞數<2的微博,經過上述處理后再去除語料中總詞頻<10的詞,最后再次過濾詞數<2的微博。通過預處理,有效微博數減少至5 441 333條,平均每天微博數量為680 166條。

  3.1話題抽取的準確性

  本文采用了主題關聯性指標Topic Coherence[6]衡量主題的準確性。直觀得,如果一組詞屬于同一個話題,那么在同一篇文檔中,它們共現的頻次相應地會較高。Topic Coherence正是基于這個思想,定義如下:

  _2ND~]]YCHVAZ%{R%JWFDCU.png

  其中D(v)表示詞v至少出現了一次的文檔頻次,D(v,v′)表示詞v和詞v′同時至少出現了一次的文檔頻次,V(t)表示主題下t最可能出現的前M個詞組成的列表。Topic Coherence指標越大,話題的準確性越高。

  為了評估所有K個主題的話題準確性,每個時間片上三種模型均取K個Topic Coherence指標的均值:

  9%1NSX54L2CZ}1}SF{D)KVS.png

  實驗取M=5,計算得到的Topic Coherence均值如圖2所示。

002.jpg

  圖2主題關聯性指標Topic Coherence均值(K=50, M=5)

  實驗結果與定性分析預期的結果一致,OLDA由于稀疏性,對于短文本的話題抽取準確性要明顯低于OBTM模型和Online-BTOT模型,同時隨著時間推移,Online-BTOT模型的準確性普遍高于OBTM模型,這得益于Online-BTOT模型在切面上的平滑過渡和遺傳計算方法上的改良。

  3.2話題內容演化

  同一個話題隨著時間的推進,話題的側重點會有所偏移,反映到主題模型上,就是主題詞概率分布會發生變化。表1展示了巴黎恐襲子話題IS極端組織話題在連續時間片上的概率最高的前10個詞。可以看到IS極端組織話題開始時與巴黎恐襲關聯,在17日開始與俄羅斯空難關聯,在19日開始與中國公民被綁架殺害關聯。

004.jpg

  通過Jensen-Shannon距離公式計算主題之間的關聯度,可以定量分析話題在內容上的演化。圖3所示為OnlineBTOT模型從2015-11-12日開始#5主題相鄰時間片的主題距離計算結果??梢钥吹?4日的主題距離明顯高于其他時間點,此時主題發生了變化(出現了巴黎公布襲擊事件)。同時可以看到在17日和19日主題距離有小幅的增長,正好對應了前面提到的話題在內容上的演化。

4結論

  Online-BTOT模型通過引入主題強度在時間片上的變化特征優化在線主題模型的遺傳權重計算,同時在單時間片上引入時間信息參與主題建模,提高了話題抽取的準確度,有效改善了時間片大小選擇不當和文本流切分造成的在線話題抽取質量不高的問題。模型基于Gibbs采樣算法,如何將模型拓展到多線程環境是下一步要努力的方向。

003.jpg

  參考文獻

  [1] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003(3): 993-1022.

  [2] Yan Xiaohui, Guo Jiafeng, Lan Yanyan, et al. A biterm topic model for short texts[C].Proceedings of the 22nd International Conference on World Wide Web, ACM, 2013: 14451456.[3] Wang Xuerui, MCCALLUM A. Topics over time: a nonMarkov continuoustime model of topical trends[C].Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM, 2006: 424-433.

 ?。?] BLEI D M, LAFFERTY J D. Dynamic topic models[C].Proceedings of the 23rd International Conference on Machine Learning,ACM, 2006: 113-120.

 ?。?] AlSUMAIT L, BARBAR D, DOMENICONI C. Online LDA: adaptive topic models for mining text streams with applications to topic detection and tracking[C].2008 Eighth IEEE International Conference on Data Mining,IEEE,2008: 3-12.

 ?。?] MIMNO D, WALLACH H M, TALLEY E, et al. Optimizing semantic coherence in topic models[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, 2011: 262-272.


本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
禁久久精品乱码| 一区二区精品| 欧美精品久久久久久| 久久久久免费观看| 性做久久久久久免费观看欧美 | 在线一区欧美| 亚洲久久视频| 亚洲欧洲久久| 亚洲高清在线精品| 久久精品亚洲一区二区| 欧美一区二区三区在线视频| 亚洲综合首页| 亚洲欧美激情精品一区二区| 亚洲一二区在线| 亚洲一区二区在线免费观看| 亚洲一区精品视频| 亚洲午夜激情网页| 亚洲一区二区三区在线视频| 亚洲影音一区| 午夜久久久久久| 欧美一区二区| 久久精品一区| 亚洲人成网在线播放| 91久久综合亚洲鲁鲁五月天| 亚洲精品网站在线播放gif| 欧美日韩国产色综合一二三四| 亚洲精品久久7777| 亚洲国产日韩欧美在线图片 | 精品99视频| 在线看欧美日韩| 亚洲国产精品欧美一二99| 亚洲国产综合在线| 日韩视频一区二区三区| 亚洲午夜精品在线| 亚洲欧美日韩中文在线制服| 欧美一区午夜视频在线观看| 亚洲二区精品| 99国产精品久久久久久久久久| aa成人免费视频| 亚洲一区二区三区中文字幕| 欧美亚洲自偷自偷| 久久久久久婷| 欧美精品一区在线发布| 国产精品白丝jk黑袜喷水| 国产精品一区二区a| 国产一区二区三区四区三区四| 在线播放不卡| 夜夜精品视频| 午夜免费在线观看精品视频| 亚洲国产一区二区视频| 99亚洲伊人久久精品影院红桃| 亚洲一区中文| 久久精选视频| 欧美精品在线观看| 国产免费成人在线视频| 亚洲国产精品黑人久久久| 在线亚洲一区观看| 欧美中文字幕精品| 一本到高清视频免费精品| 欧美一区二区三区电影在线观看| 久久综合九色欧美综合狠狠| 欧美深夜影院| 黑人操亚洲美女惩罚| 99国内精品| 欧美在线观看你懂的| 日韩亚洲一区二区| 欧美一区二区三区啪啪| 免费毛片一区二区三区久久久| 欧美日韩伦理在线免费| 国产视频一区在线观看| 亚洲日本欧美天堂| 久久精品亚洲国产奇米99| 在线播放豆国产99亚洲| 一本色道久久综合精品竹菊 | 欧美在线播放一区| 在线亚洲国产精品网站| 久久美女艺术照精彩视频福利播放| 欧美精品在线一区二区| 国产亚洲在线| 99在线精品免费视频九九视| 久久爱另类一区二区小说| 亚洲性线免费观看视频成熟| 麻豆久久婷婷| 国产欧美日韩激情| 日韩天堂在线视频| 亚洲国产成人不卡| 欧美在线免费观看视频| 欧美日韩大片一区二区三区| 国语自产精品视频在线看| 一区二区三区视频观看| 亚洲老板91色精品久久| 久久久亚洲午夜电影| 国产精品区一区二区三区| 亚洲高清一区二区三区| 欧美一区二区三区精品| 亚洲专区欧美专区| 欧美日韩免费观看一区=区三区| 一区二区三区在线观看视频| 亚洲影院在线| 亚洲综合好骚| 欧美日韩精品免费观看| 亚洲二区免费| 久久精品女人| 久久av免费一区| 国产精品久久网| 99这里只有精品| 99re6热只有精品免费观看| 久久综合999| 国产亚洲视频在线观看| 亚洲女性喷水在线观看一区| 亚洲一区二区三区高清不卡| 欧美日韩免费精品| 亚洲精品乱码| 亚洲免费观看视频| 欧美a级大片| 尤物99国产成人精品视频| 久久精品免费观看| 久久看片网站| 亚洲人成人一区二区三区| 国产欧美日韩精品a在线观看| 红桃av永久久久| 欧美一级电影久久| 欧美在线视频一区| 国产免费成人av| 先锋亚洲精品| 久久久久久亚洲精品杨幂换脸| 国产亚洲美州欧州综合国| 亚洲一区黄色| 欧美一区二区三区四区视频| 国产精品一区=区| 午夜在线一区| 久久精品视频免费播放| 国产中文一区| 亚洲第一页在线| 欧美 亚欧 日韩视频在线| 亚洲成色999久久网站| 亚洲激情av在线| 欧美成人午夜激情| 亚洲精品小视频| 亚洲图片欧洲图片av| 欧美性猛交xxxx乱大交蜜桃| 亚洲一区二区伦理| 久久久91精品国产| 伊人狠狠色j香婷婷综合| 亚洲区一区二区三区| 欧美精品三级在线观看| 99在线精品视频| 欧美一区午夜视频在线观看| 国产在线欧美| 亚洲欧洲在线看| 欧美日韩日本视频| 亚洲香蕉网站| 久久美女艺术照精彩视频福利播放| 影音先锋欧美精品| 日韩亚洲在线| 国产精品久久二区| 欧美伊人久久| 欧美大片在线看免费观看| 日韩一级黄色片| 欧美影院久久久| 激情婷婷亚洲| 一区二区三区高清不卡| 国产欧美日韩高清| 91久久综合亚洲鲁鲁五月天| 欧美视频中文一区二区三区在线观看| 亚洲尤物视频网| 久久综合狠狠综合久久综青草| 亚洲激情亚洲| 欧美亚洲免费高清在线观看| 国内精品一区二区| av不卡在线看| 国产美女精品视频免费观看| 亚洲日本欧美天堂| 一本色道久久综合亚洲精品不| 亚洲免费观看高清完整版在线观看熊 | 国产精品稀缺呦系列在线| 久久精品国亚洲| 欧美日韩一区在线播放| 午夜精品久久一牛影视| 免费不卡在线视频| 亚洲午夜激情网页| 欧美大片免费看| 亚洲欧美电影在线观看| 奶水喷射视频一区| 亚洲一区二区三区免费观看| 欧美777四色影视在线| 亚洲一线二线三线久久久| 欧美xxxx在线观看| 亚洲欧美成人一区二区三区| 欧美激情五月| 欧美在线影院| 欧美性做爰毛片| 亚洲欧洲另类| 国产欧美日韩综合| 一区二区三区四区五区精品视频 | 中国成人亚色综合网站| 国内精品久久久久影院薰衣草| 亚洲午夜激情免费视频| 一区二区亚洲欧洲国产日韩| 亚洲免费视频网站|