《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)媒體熱點(diǎn)話題 預(yù)測(cè)方法研究與實(shí)現(xiàn)
基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)媒體熱點(diǎn)話題 預(yù)測(cè)方法研究與實(shí)現(xiàn)
2014年微型機(jī)與應(yīng)用第15期
梁 野1,2,郭寧寧1,李碧萩1,李 超2,邢春曉2
1.北京外國(guó)語(yǔ)大學(xué) 計(jì)算機(jī)系2.清華大學(xué) 信息技術(shù)研究院
摘要: 針對(duì)目前互聯(lián)網(wǎng)“富信息化”現(xiàn)象,提出了基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測(cè)的思想。該思想通過(guò)總結(jié)能盡量準(zhǔn)確描述熱點(diǎn)話題的一組特征,得到每篇新聞各自的特征向量,并針對(duì)大量近期已知是否熱門的隨機(jī)新聞樣本內(nèi)容進(jìn)行聚類處理。基于健壯精準(zhǔn)的分類算法,利用支持向量機(jī)將向量映射到高維空間達(dá)到分類目的。在機(jī)器學(xué)習(xí)過(guò)程中,采用大量試驗(yàn)的方法修改并完善特征向量的組成、度量及權(quán)重,最終達(dá)到準(zhǔn)確作出熱點(diǎn)話題預(yù)測(cè)的目的。
Abstract:
Key words :

  摘  要: 針對(duì)目前互聯(lián)網(wǎng)“富信息化”現(xiàn)象,提出了基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測(cè)的思想。該思想通過(guò)總結(jié)能盡量準(zhǔn)確描述熱點(diǎn)話題的一組特征,得到每篇新聞各自的特征向量,并針對(duì)大量近期已知是否熱門的隨機(jī)新聞樣本內(nèi)容進(jìn)行聚類處理。基于健壯精準(zhǔn)的分類算法,利用支持向量機(jī)將向量映射到高維空間達(dá)到分類目的。在機(jī)器學(xué)習(xí)過(guò)程中,采用大量試驗(yàn)的方法修改并完善特征向量的組成、度量及權(quán)重,最終達(dá)到準(zhǔn)確作出熱點(diǎn)話題預(yù)測(cè)的目的。

  關(guān)鍵詞: 機(jī)器學(xué)習(xí);網(wǎng)絡(luò)媒體;熱點(diǎn)話題;特征向量;分詞;預(yù)測(cè)

  互聯(lián)網(wǎng)信息發(fā)布的便利性使得大眾每天面對(duì)爆炸性增長(zhǎng)的信息沖擊,大量文本及文本信息在豐富大眾生活的同時(shí),也給用戶帶來(lái)了困擾。人們?cè)讷@取固定信息的同時(shí),往往希望獲取特定領(lǐng)域的流行信息。為滿足人們的這種需求,互聯(lián)網(wǎng)新聞給出了相應(yīng)的對(duì)策,如訂閱熱門話題、熱門新聞上首頁(yè)等措施。這些雖然在一定程度上解決了上述需求,但熱門信息的排序仍然需要人工手動(dòng)添加完成,從時(shí)間成本和人工成本上來(lái)說(shuō)都十分浪費(fèi),并且用戶也無(wú)法及時(shí)得到最新的熱門資訊。

  為此,本文提出了基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)熱點(diǎn)話題預(yù)測(cè)方法,該方法可以有效地滿足互聯(lián)網(wǎng)用戶的上述需求,并幫助新聞工作者有效減少工作量。利用機(jī)器學(xué)習(xí)帶來(lái)的便利性,不僅可以快速分類出熱門新聞話題,并且可以做到按熱門排序,這樣既能方便用戶快速聚焦社會(huì)生活中的熱門話題,同時(shí)也能幫助網(wǎng)頁(yè)新聞工作者大量減少因?yàn)榕判蚨鴰?lái)的簡(jiǎn)單重復(fù)的工作量。

1 國(guó)內(nèi)外發(fā)展現(xiàn)狀

  在國(guó)際上,熱門話題的發(fā)掘工作層出不窮。彭菲菲等人針對(duì)信息冗余等現(xiàn)象提出了資源整合方法,對(duì)熱點(diǎn)話題發(fā)現(xiàn)的關(guān)鍵技術(shù)做了一些改進(jìn)[1];王巍等人針對(duì)Chen Kuan新聞報(bào)道側(cè)重點(diǎn)的變化提出了基于多中心模型的熱點(diǎn)話題發(fā)現(xiàn)算法[2];賴錦輝等人針對(duì)微博中孤立點(diǎn)較多的現(xiàn)象提出了消除孤立點(diǎn)的微博熱點(diǎn)話題發(fā)現(xiàn)方法,消除孤立點(diǎn)再用CURE算法聚類,效果較好,但僅針對(duì)特征明顯的微博進(jìn)行研究[3];黃蕉平等人基于微博進(jìn)行了負(fù)面新聞的早期預(yù)測(cè)研究工作,由于微博特有的轉(zhuǎn)發(fā)量、點(diǎn)贊數(shù)等多維度為其研究成果在其他領(lǐng)域的應(yīng)用帶來(lái)了一定的局限性。除了以上學(xué)術(shù)界的相關(guān)工作研究,商業(yè)領(lǐng)域也存在許多熱點(diǎn)話題資訊系統(tǒng),比如常用的谷歌手機(jī)軟件Google Currents2.0在最近的更新中就特別加入了Breaking Stories版塊。總結(jié)以上研究成果,國(guó)內(nèi)外仍沒(méi)有很好的熱點(diǎn)話題預(yù)測(cè)研究,有的側(cè)重點(diǎn)在挖掘而不在預(yù)測(cè),有的著眼于預(yù)測(cè)卻不具有很好的擴(kuò)展性。

  本文提出一種實(shí)用性廣、可預(yù)測(cè)性強(qiáng)的熱點(diǎn)話題預(yù)測(cè)方法,總結(jié)出一組能盡量準(zhǔn)確描述熱點(diǎn)話題特征,得到每篇新聞各自的特征向量,然后基于這組特征對(duì)大量近期隨機(jī)已知是否熱門的樣本新聞文本內(nèi)容進(jìn)行聚類處理,利用支持向量機(jī)對(duì)數(shù)據(jù)進(jìn)行分類。由于機(jī)器學(xué)習(xí)是一個(gè)需要反復(fù)修改的過(guò)程,該方法的另一個(gè)研究重點(diǎn)就是在大量試驗(yàn)中修改并完善特征向量的組成、度量以及權(quán)重,最終希望能達(dá)到準(zhǔn)確作出熱點(diǎn)話題分類即預(yù)測(cè)的目的。

2 基于機(jī)器學(xué)習(xí)的熱點(diǎn)話題預(yù)測(cè)方法


001.jpg


  根據(jù)互聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)和已有的新聞話題預(yù)測(cè)模型,得到圖1所示的整體設(shè)計(jì)結(jié)構(gòu)圖。該結(jié)構(gòu)圖主要由數(shù)據(jù)挖掘器、特征提取器以及分類器3部分構(gòu)成。

  從第三步訓(xùn)練結(jié)果→支持→測(cè)試結(jié)果→反饋→特征提取器可以看出,該步驟是一個(gè)不斷循環(huán)的過(guò)程,目的在于根據(jù)測(cè)試結(jié)果不斷調(diào)整特征值,直到達(dá)到滿意的效果。

  由于步驟模塊化,該結(jié)構(gòu)設(shè)計(jì)可應(yīng)對(duì)多種不同需求的話題預(yù)測(cè),支持不同新聞網(wǎng)站、不同類別下新聞?lì)A(yù)測(cè)以及熱點(diǎn)或非熱點(diǎn)的新聞話題預(yù)測(cè)。

  2.1 數(shù)據(jù)挖掘問(wèn)題

  本節(jié)以CNN國(guó)際新聞網(wǎng)站為例,闡述新聞挖掘提取過(guò)程。該新聞網(wǎng)站每天有上萬(wàn)條新聞,如何準(zhǔn)確挖掘及提取4個(gè)關(guān)鍵屬性是數(shù)據(jù)挖掘器需要解決的主要問(wèn)題。設(shè)計(jì)思路是將網(wǎng)站上的無(wú)數(shù)條鏈接看做一個(gè)樹(shù)狀結(jié)構(gòu),CNN主頁(yè)URL即為該樹(shù)狀結(jié)構(gòu)的父節(jié)點(diǎn)。首先對(duì)每一層進(jìn)行廣度優(yōu)先遍歷,將獲取到的新聞鏈接存入隊(duì)列中,接著進(jìn)行深度優(yōu)先遍歷,直到獲取到數(shù)量足夠多的新聞為止。該方法的優(yōu)點(diǎn)是挖掘到的新聞不會(huì)重復(fù)。針對(duì)每一個(gè)新聞鏈接,首先利用httpclient客戶端編程工具包提取網(wǎng)頁(yè)源代碼,通過(guò)HTML解析技術(shù)分別將新聞標(biāo)題、作者、發(fā)布時(shí)間和正文4項(xiàng)要素提取出來(lái),每提取一篇新聞即將4要素存入連接好的數(shù)據(jù)庫(kù)中,該表的格式設(shè)計(jì)如表1所示。

003.jpg

  2.2 特征提取問(wèn)題

  2.2.1 關(guān)鍵詞模式匹配技術(shù)簡(jiǎn)介

  模式(Schema)是指按照某種結(jié)構(gòu)組織起來(lái)的多個(gè)元素的集合,模式匹配是指將兩個(gè)模式作為輸入,計(jì)算模式元素之間語(yǔ)義上的對(duì)應(yīng)關(guān)系的過(guò)程[4]。本文中特征向量中的兩個(gè)元素——知名度和敏感度,需要計(jì)算新聞文章中出現(xiàn)的名人數(shù)或敏感詞的個(gè)數(shù),為了實(shí)現(xiàn)這一計(jì)算,故選用模式匹配技術(shù)。由于熱點(diǎn)話題的特點(diǎn),在新聞話題預(yù)測(cè)中不需要找出具體匹配位置。

  2.2.2 特征提取

  (1)知名度。建立名人庫(kù)[5],匹配新聞,若出現(xiàn)詞庫(kù)中人名則該特征記為1,否則記為0。

  famous=0(初始值)(1)

  (2)敏感度。建立敏感詞詞庫(kù)(如explosion,death等),新聞標(biāo)題及內(nèi)容中出現(xiàn)的敏感詞次數(shù)記為a,敏感詞庫(kù)總次數(shù)為b,定義敏感度為a/b(0-1)。

  Sensitivity=a/b(2)

  (3)文本長(zhǎng)度。新聞?wù)拈L(zhǎng)度過(guò)長(zhǎng)或過(guò)短都會(huì)影響其熱度,首先設(shè)定該長(zhǎng)度閾值為500,該值根據(jù)實(shí)驗(yàn)測(cè)試結(jié)果不斷調(diào)整。

  Length=500(初始值)(3)

  (4)時(shí)效性。當(dāng)前時(shí)間與發(fā)表時(shí)間求差,差值x以24為閾值。

  YGAR1RZAJG687@PKBB2BDPU.png

  (5)生動(dòng)性。統(tǒng)計(jì)一篇新聞的形容詞個(gè)數(shù)m占整篇新聞詞數(shù)n的比例(0~1),比例高者權(quán)重高,新聞話題熱度更高。

  Vivid=m/n(5)

  2.3 分類器問(wèn)題

  2.3.1支持向量機(jī)技術(shù)簡(jiǎn)介

  支持向量機(jī)(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它的原理是尋找一個(gè)最優(yōu)的分類超平面,在保證精度的同時(shí)能夠使平面兩側(cè)的空白做到最大化,所以理論上來(lái)說(shuō)支持向量機(jī)可以實(shí)現(xiàn)線性數(shù)據(jù)的最優(yōu)分類[6]。上文提到的特征向量就是一組可分的線性數(shù)據(jù),故選用支持向量機(jī)技術(shù)。

  2.3.2 機(jī)器學(xué)習(xí)技術(shù)簡(jiǎn)介

  機(jī)器學(xué)習(xí)ML(Machine Learning)就是讓機(jī)器來(lái)模擬人類的學(xué)習(xí)功能,是一門研究怎樣用機(jī)器來(lái)模擬或?qū)崿F(xiàn)人類學(xué)習(xí)活動(dòng)的學(xué)科,要使計(jì)算機(jī)具有某種學(xué)習(xí)能力,就需要為其建立相應(yīng)的學(xué)習(xí)系統(tǒng)。本文背景下的學(xué)習(xí)系統(tǒng)基本模型如圖2所示。

002.jpg

  其中,新聞信息為互聯(lián)網(wǎng)中實(shí)時(shí)更新的新聞內(nèi)容;關(guān)鍵詞提取是將新聞內(nèi)容等要素加工為知識(shí)的過(guò)程;知識(shí)庫(kù)則是用來(lái)存儲(chǔ)上一環(huán)節(jié)得到的知識(shí);執(zhí)行環(huán)節(jié)是利用知識(shí)庫(kù)中的知識(shí)完成分類的過(guò)程,并且把信息反饋給學(xué)習(xí)環(huán)節(jié)(關(guān)鍵詞提取),達(dá)到良性學(xué)習(xí)的目的。

  2.3.3 分類器原理

  將上節(jié)提取出的特征集拿出90%作為特征訓(xùn)練集放入分類器中進(jìn)行分類學(xué)習(xí),分類器得到分類標(biāo)準(zhǔn)后將剩下的10%特征集用于測(cè)試訓(xùn)練集,檢測(cè)分類標(biāo)準(zhǔn)的準(zhǔn)確度及可信性。將結(jié)果反饋到特征提取器中,并不斷進(jìn)行特征及權(quán)重的調(diào)整[7]。最終達(dá)到分類出熱點(diǎn)新聞和非熱點(diǎn)新聞的目的,即熱點(diǎn)新聞話題預(yù)測(cè)的目的。

  在當(dāng)今信息爆炸的時(shí)代背景下,預(yù)測(cè)熱點(diǎn)新聞話題的工作具有十分重要的實(shí)際意義。根據(jù)目前已有的大量相關(guān)工作,提出由數(shù)據(jù)挖掘器、特征提取器和分類器3部分組成的熱點(diǎn)新聞話題預(yù)測(cè)模型,該模型通過(guò)機(jī)器學(xué)習(xí)的手段不斷進(jìn)行特征及權(quán)重的調(diào)整,從而達(dá)到預(yù)測(cè)熱點(diǎn)話題的目的。這項(xiàng)工作的研究成果,不僅能引導(dǎo)用戶去關(guān)注社會(huì)和生活中的焦點(diǎn)話題,同時(shí)也能幫助網(wǎng)絡(luò)新聞工作者降低繁重重復(fù)的工作量,因此,它具有較為廣泛的適用性,并能創(chuàng)造一定的經(jīng)濟(jì)效益和社會(huì)效益。

  參考文獻(xiàn)

  [1] 彭菲菲.網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)的關(guān)鍵技術(shù)研究[D].北京:中國(guó)礦業(yè)大學(xué)(北京),2012.

  [2] 王巍,楊武,齊海鳳.基于多中心模型的網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)算法[J].南京理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,33(4):422-426.

  [3] 賴錦輝,梁松.一種消除孤立點(diǎn)的微博熱點(diǎn)話題發(fā)現(xiàn)方法[J].計(jì)算機(jī)應(yīng)用與軟件,2014(1):105-137,139.

  [4] RAHM E, BERNSTEIN P A. A survey of approaches to automatic schema matching[J]. The VLDB Journal, 2001, 10(4): 334-350.

  [5] 馬子恩.熱點(diǎn)事件新聞?wù)Z料庫(kù)的研制及詞匯研究[D].南京:南京師范大學(xué),2012.

  [6] LI S, ZHAO J, SONG Z, et al. Study on topic tracking system based on SVM[C]. 2011 Fourth International Sym-

  posium on Knowledge Acquisition and Modeling(KAM), IEEE, 2011: 83-87.

  [7] ZHENG Y, LU R. An adaptive topic tracking method based on feedback stories[C]. International Symposium on Information Technology in Medicine and Education, 2012(2):1021-1025.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
亚洲综合国产激情另类一区| 欧美成人免费视频| 亚洲黄色影院| 久久精品国产第一区二区三区最新章节 | 国产精品免费小视频| 欧美日韩精品一区二区在线播放| 欧美二区不卡| 欧美激情在线观看| 欧美激情视频在线播放| 美女91精品| 欧美顶级少妇做爰| 欧美日本一区| 欧美日韩在线免费| 国产精品成人播放| 国产精品美女久久久久av超清| 国产精品jizz在线观看美国 | 亚洲激情另类| 亚洲伦理精品| 亚洲图片在线| 亚洲欧美日韩视频一区| 欧美亚洲自偷自偷| 久久精品亚洲一区| 日韩午夜剧场| 亚洲欧美国产毛片在线| 欧美一区二视频| 久久婷婷影院| 欧美区在线播放| 欧美午夜精品| 国产精品一区视频网站| 国产在线高清精品| 91久久国产综合久久| 中文高清一区| 欧美在线欧美在线| 亚洲精品黄色| 亚洲尤物视频在线| 久久精品免费电影| 欧美大片国产精品| 欧美亚男人的天堂| 国产视频欧美| 亚洲国产精品激情在线观看| 99热精品在线| 欧美中文在线字幕| 一本久久青青| 久久精品二区| 欧美日韩国产成人精品| 国产伦精品一区二区三区免费| 欧美国产日本韩| 国产精品美女999| 一区二区三区亚洲| 一区二区三区视频在线看| 午夜精品久久久久久久久久久久| 亚洲国产裸拍裸体视频在线观看乱了 | 99re成人精品视频| 香蕉av777xxx色综合一区| 久久免费视频这里只有精品| 欧美久久成人| 国产麻豆视频精品| 亚洲激情在线激情| 亚洲欧美999| 亚洲美女av黄| 久久av二区| 欧美精品一区二区三区高清aⅴ| 国产精品网站视频| 亚洲国产精品综合| 亚洲欧美日韩爽爽影院| 99国产精品久久久久久久成人热| 欧美有码视频| 欧美日韩国产综合一区二区| 国产日韩成人精品| 日韩一级精品| 亚洲国产精品电影| 午夜精品久久久| 欧美精品系列| 一区二区三区在线观看视频 | 久久久人成影片一区二区三区观看 | 国产拍揄自揄精品视频麻豆| 亚洲精品美女在线观看| 久久成人18免费观看| 亚洲一区在线播放| 欧美好骚综合网| 国内自拍亚洲| 亚洲男女自偷自拍| 亚洲婷婷在线| 欧美成人在线网站| 国内综合精品午夜久久资源| 亚洲一区国产| 亚洲一区二区三区视频播放| 奶水喷射视频一区| 国产一区二区久久精品| 亚洲午夜久久久久久尤物| 亚洲作爱视频| 欧美激情国产高清| 极品日韩av| 欧美一区二区在线免费播放| 午夜精品久久久| 国产精品黄视频| aa亚洲婷婷| aⅴ色国产欧美| 欧美大片在线观看一区| 尤物视频一区二区| 亚洲高清不卡| 看片网站欧美日韩| 韩国精品一区二区三区| 欧美一区二区三区免费视频| 欧美一区日韩一区| 国产伦精品一区二区三区视频黑人| 一区二区三区视频在线看| 亚洲视频导航| 欧美日韩亚洲高清一区二区| 亚洲精品少妇网址| 99精品国产在热久久| 欧美精品成人在线| 亚洲国产欧美另类丝袜| 亚洲乱码一区二区| 欧美精品激情| 亚洲伦理一区| 亚洲视频精品| 国产精品qvod| 亚洲一区二区三区中文字幕在线| 亚洲欧美国产高清va在线播| 国产精品久久国产三级国电话系列| 一本久道久久综合狠狠爱| 制服丝袜激情欧洲亚洲| 欧美日韩亚洲天堂| 99精品视频一区| 亚洲女女女同性video| 国产精品久久网| 午夜精品久久久久久久久久久| 久久国产色av| 国内偷自视频区视频综合| 亚洲国产91精品在线观看| 久久综合网hezyo| 亚洲高清久久久| 日韩亚洲欧美成人一区| 欧美日韩免费网站| 亚洲午夜黄色| 久久精品亚洲精品国产欧美kt∨| 国产亚洲欧美日韩精品| 亚洲电影免费在线 | 国内自拍一区| 亚洲人成在线影院| 欧美日韩国产三级| 亚洲午夜一级| 久久精品国产一区二区三区免费看 | 久久精品官网| 亚洲高清中文字幕| 一区二区欧美亚洲| 国产精品亚洲综合一区在线观看| 欧美专区18| 欧美日韩精品免费看| 亚洲在线网站| 麻豆成人在线观看| 99av国产精品欲麻豆| 性欧美xxxx视频在线观看| 极品尤物一区二区三区| 一区二区成人精品| 国产精品香蕉在线观看| 亚洲国产黄色| 欧美日韩在线精品| 午夜在线观看欧美| 欧美高清视频在线播放| 亚洲午夜一区二区| 免费观看国产成人| 亚洲亚洲精品在线观看| 久久人人爽人人爽爽久久| 亚洲精品国产视频| 欧美在线观看一二区| 亚洲国产精品精华液网站| 亚洲一区精彩视频| 黄色成人在线网址| 亚洲免费网站| 伊人久久婷婷| 亚洲欧美三级伦理| 亚洲激情黄色| 欧美一区二区三区免费大片| 亚洲电影免费观看高清| 亚洲欧美在线免费| 亚洲国产一区二区三区a毛片| 欧美一级大片在线观看| 亚洲国产专区校园欧美| 久久国产黑丝| 一区二区欧美亚洲| 老牛影视一区二区三区| 亚洲直播在线一区| 欧美精品久久久久a| 久久高清国产| 国产精品色一区二区三区| 亚洲裸体在线观看| 国产小视频国产精品| 亚洲一区二区三区久久 | 亚洲麻豆视频| 巨乳诱惑日韩免费av| 午夜国产精品视频| 欧美日韩精品欧美日韩精品一| 久久精品一区二区三区四区| 国产精品日韩二区| 一区二区三区国产盗摄| 亚洲高清网站| 快she精品国产999| 欧美亚洲三级|