《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 設(shè)計(jì)應(yīng)用 > N層向量空間模型在Web信息檢索中的應(yīng)用
N層向量空間模型在Web信息檢索中的應(yīng)用
劉志為 何丕廉 孫越恒 鄭小慎
天津大學(xué)電子信息工程學(xué)院(300072)
摘要: 在傳統(tǒng)向量空間模型的基礎(chǔ)上,提出一種新的信息檢索算法模型——N層向量模型。此模型應(yīng)用在Web信息檢索上,能較好地適應(yīng)文檔集合的動(dòng)態(tài)擴(kuò)充。
Abstract:
Key words :

摘   要: 在傳統(tǒng)向量空間模型的基礎(chǔ)上,提出一種新的信息檢索算法模型——N層向量模型。此模型應(yīng)用在Web信息檢索上,能較好地適應(yīng)文檔集合的動(dòng)態(tài)擴(kuò)充。
關(guān)鍵詞: 搜索引擎  向量空間模型  查準(zhǔn)率  查全率

  Internet使人類社會(huì)步入了以網(wǎng)絡(luò)為中心的信息時(shí)代。隨著Web信息爆炸性的增長,如何從大量的信息中迅速、有效、準(zhǔn)確地提取所需信息已成為一個(gè)極富挑戰(zhàn)性的課題,并已成為學(xué)術(shù)界和企業(yè)界十分關(guān)注的問題。
  半個(gè)多世紀(jì)以來,人們提出了許多種信息檢索的算法模型。Salton等人提出的一種向量空間模型的算法是使用TFIDF將文檔轉(zhuǎn)化為向量形式,其計(jì)算簡單并且有效,因此得到了較廣泛的應(yīng)用。在經(jīng)典的向量空間檢索模型的算法中,文檔和查詢都是用其所包含的特征項(xiàng)(通常認(rèn)為以詞為特征項(xiàng)比較合理)組成的向量來表示的,并且用文檔與查詢的向量之間夾角的余弦作為相似性的度量,夾角越小,相似度越大。針對(duì)特定的查詢向量,比較它與所有文檔向量的相似度,并依相似度將文檔降序排序,提交檢索結(jié)果。這種方法具有簡單直觀、處理速度快等優(yōu)點(diǎn)。但是文檔集合中特征項(xiàng)的數(shù)量遠(yuǎn)遠(yuǎn)大于每一篇文檔或查詢中特征項(xiàng)的個(gè)數(shù),因此文檔和查詢的向量表示形式中的大部分項(xiàng)都為零。這些零項(xiàng)將會(huì)在計(jì)算特征項(xiàng)的權(quán)重和相似度時(shí)帶來很大的時(shí)間和空間復(fù)雜度,導(dǎo)致數(shù)據(jù)稀疏現(xiàn)象。另外在特征項(xiàng)抽取以及查詢匹配過程中,同一個(gè)特征項(xiàng)出現(xiàn)在文檔的不同區(qū)域時(shí),它所表達(dá)文檔內(nèi)容的能力是不同的。而且在文檔同一區(qū)域,不同的特征項(xiàng)所表達(dá)文檔內(nèi)容的能力也是有差別的。使用傳統(tǒng)的向量空間模型則會(huì)認(rèn)為這些特征項(xiàng)所表達(dá)文檔的能力完全相同,不能加以區(qū)分。
  本文在傳統(tǒng)向量空間模型的基礎(chǔ)上提出一種新的檢索方法,將N層向量空間模型應(yīng)用在Web信息檢索上,使之能較好地適應(yīng)文檔集合的動(dòng)態(tài)擴(kuò)充。理論分析和實(shí)驗(yàn)結(jié)果表明,此方法能夠進(jìn)一步提高向量空間模型的性能,節(jié)省存儲(chǔ)空間,加快檢索速度,具有較高的精度和召回率。
1  向量空間模型
1.1 傳統(tǒng)向量空間模型
  向量空間模型的出發(fā)點(diǎn)是:每篇文檔和查詢都包含一些用概念詞表達(dá)的、揭示其內(nèi)容的獨(dú)立屬性,而每個(gè)屬性都可以看成是概念空間的一個(gè)維數(shù)。因此,文檔和查詢就可以表示為這些屬性的集合,從而忽略了文本結(jié)構(gòu)中段落、句子及詞語之間的復(fù)雜關(guān)系。這樣,文檔和查詢可以分別用空間的一個(gè)點(diǎn)表示,并且文檔矢量與查詢矢量之間就存在空間上的不同距離,而這種距離關(guān)系在信息檢索中的意義就是文檔與查詢之間的相似度。所以,文檔與查詢之間的相似度可以用矢量間的距離來衡量。相似度的計(jì)算方法有很多種,本文采用余弦系數(shù)法,即用二個(gè)矢量之間的夾角的余弦來表示文檔與查詢間的相關(guān)度。夾角越大,距離越遠(yuǎn),余弦越小,相關(guān)度越小,反之相關(guān)度越大。下面介紹向量空間模型的量化方法。
  tfij為特征項(xiàng)tj在文檔di中出現(xiàn)的頻率;dfj為在整個(gè)文檔集中,包含特征項(xiàng)tj的文檔數(shù);idfj為反轉(zhuǎn)文檔頻數(shù),其值為:

  可見,傳統(tǒng)的向量空間模型是以文本特征項(xiàng)的頻率tf和反轉(zhuǎn)文檔頻率idf作為其量化基礎(chǔ)的。其乘積作為特征項(xiàng)的權(quán)重,再通過計(jì)算文檔與查詢之間的相似度即可判斷文檔與查詢是否相關(guān)。權(quán)重值大的特征項(xiàng)是那些在文檔中出現(xiàn)頻率足夠高,但在整個(gè)文檔集的其他文檔中出現(xiàn)頻率足夠少的詞語,也是對(duì)區(qū)別文檔最有意義的詞語。
1.2 N層向量空間模型
  將一篇文檔從組織結(jié)構(gòu)上劃分為N層,基于每層的文本內(nèi)容建立相應(yīng)的特征項(xiàng)向量和權(quán)值。其中特征項(xiàng)抽取和權(quán)重計(jì)算等同傳統(tǒng)向量空間模型相同。這樣,對(duì)于文檔進(jìn)行N層劃分得到的向量空間模型就成為N層向量空間模型。
  本文針對(duì)Web信息檢索進(jìn)行考慮,由于Web頁面的特殊格式,要求一篇文檔最少是由指向該文檔的鏈接、文檔標(biāo)題和文檔正文三部分組成。而這三部分的內(nèi)容對(duì)于這篇文檔的表達(dá)能力是不同的。鏈接的文字是吸引別人點(diǎn)擊文檔進(jìn)行閱讀的通道,所以鏈接的內(nèi)容表達(dá)文檔的能力最強(qiáng),其次是標(biāo)題,正文的內(nèi)容表達(dá)文檔的能力最弱。
  因此,將N層向量空間模型應(yīng)用在Web信息檢索時(shí),可將一篇Web文檔按照指向文檔的鏈接、標(biāo)題和正文劃分成3層(若Web頁面中有<meta keyword>等標(biāo)記的關(guān)鍵字部分,則可劃分為4層向量空間模型。)。
2  應(yīng)用N層向量空間模型進(jìn)行Web信息檢索
2.1 文本向量表示形式的改進(jìn) 
  向量空間模型在建完索引以后,要根據(jù)每一個(gè)特征項(xiàng)求其對(duì)于每一篇文檔和查詢的權(quán)重值。其計(jì)算量非常大,并且每一篇文檔和查詢的向量表示式為,其中大多數(shù)項(xiàng)都為零,所以導(dǎo)致了數(shù)據(jù)稀疏現(xiàn)象。另外由于Web頁面的超鏈性(hyperlink),頁面上顯示的信息有很多是和本頁內(nèi)容無關(guān)的,例如別的頁面的鏈接、版權(quán)信息、欄目導(dǎo)航等,在每個(gè)頁面上都有重復(fù)出現(xiàn),這干擾了相似度計(jì)算。為解決這些問題,首先引入停用詞表,例如文檔中很多不能說明文檔內(nèi)容的語法詞,還有虛詞、感嘆詞、連詞等或各個(gè)文檔共有的詞,所有這些詞作為描述文檔的向量效率是非常低的。因此可以考慮降維處理,把它們作為停用詞,不計(jì)算其權(quán)重;其次,采用壓縮矩陣的辦法來解決數(shù)據(jù)稀疏問題,定義文檔和查詢的向量表示形式為:<……,(ti,ωdi),……>,其中ti為第i個(gè)特征項(xiàng),ωdi為其對(duì)應(yīng)的權(quán)重值且ωdi≠0。這樣既減少了計(jì)算量,又加快了計(jì)算速度,同時(shí)節(jié)省了存儲(chǔ)空間。
2.2 特征項(xiàng)頻率統(tǒng)計(jì)的改進(jìn)
  在統(tǒng)計(jì)每個(gè)區(qū)域的特征項(xiàng)頻率得到tfij后,要乘以一個(gè)反映其重要程度的比例系數(shù)來加以修正和調(diào)整,則特征項(xiàng)tj在文檔di中出現(xiàn)的頻率為:
  

  其中:tfiji為第i個(gè)區(qū)域的頻率(i為1、2、3時(shí)分別對(duì)應(yīng)鏈接區(qū)域、標(biāo)題區(qū)域、正文區(qū)域),α>β>γ≥1為比例系數(shù)。
  同樣,在文檔同一區(qū)域中,不同的特征項(xiàng)所表達(dá)文檔內(nèi)容的能力也是有差別的。例如同在正文區(qū)域的不同的特征項(xiàng)所代表文檔的內(nèi)容就有可能不同。在計(jì)算特征項(xiàng)頻率tfij時(shí)再乘以一個(gè)比例因子log2(M/mi),其中M為該特征項(xiàng)在本文檔中共出現(xiàn)的次數(shù),mi為該特征項(xiàng)在文檔第i次出現(xiàn)的次數(shù)。這樣,特征項(xiàng)tj在文檔di中出現(xiàn)的頻率調(diào)整為:

2.3 傳統(tǒng)向量空間模型與N層向量空間模型的算法復(fù)雜度比較
  表1為傳統(tǒng)向量空間模型與N層向量空間模型的算法復(fù)雜度比較結(jié)果。

3  實(shí)驗(yàn)設(shè)置
  (1)信息檢索實(shí)驗(yàn)系統(tǒng)。信息檢索實(shí)驗(yàn)系統(tǒng)選用了Smart系統(tǒng)。Smart系統(tǒng)是基于向量空間檢索模型實(shí)現(xiàn)的信息檢索系統(tǒng)。在本實(shí)驗(yàn)中,為便于實(shí)現(xiàn)對(duì)向量空間模型算法的修改,使用的是經(jīng)過修改的Smart信息檢索系統(tǒng)。
  (2)測試集。測試集分為文檔和查詢(query)二部分:文檔部分采用新浪網(wǎng)站(www.sina.com.cn)的新聞部分Web版(32,145篇)。查詢部分使用新浪網(wǎng)站的新聞?dòng)懻摌?biāo)題,共50個(gè)。
  (3)評(píng)價(jià)方法。本系統(tǒng)使用精度和召回率來評(píng)價(jià)。精度是檢索出來的相關(guān)文檔數(shù)和檢索出來的總文檔數(shù)的比值;召回率是檢索出來的相關(guān)文檔數(shù)和總的相關(guān)文檔數(shù)的比值。通常,召回率越高,精度越低;反之精度越高,召回率越低。所以最有說服力的是11個(gè)點(diǎn)的平均精度。世界上最權(quán)威的文本檢索評(píng)測會(huì)議TREC(Text Retrieval Conference)的評(píng)測依據(jù)就是這個(gè)值。本系統(tǒng)將只提供這個(gè)值。
4  實(shí)驗(yàn)結(jié)果
  這里對(duì)傳統(tǒng)的向量空間模型算法和改進(jìn)后的向量空間算法進(jìn)行了比較,并統(tǒng)計(jì)了對(duì)應(yīng)于每一條查詢的11個(gè)點(diǎn)處的平均精度值。其結(jié)果如表2所示。


  因?yàn)槠骄戎祪H僅是11個(gè)點(diǎn)處的精度值的平均值,為了進(jìn)一步說明問題,圖1給出了這幾次檢索的精度-召回率曲線。
 

  從圖1中可以看出,改進(jìn)向量空間模型在索引時(shí)間和精度上都要優(yōu)于傳統(tǒng)向量空間,性能有了很大的提高。

  本文提出了一種應(yīng)用N層向量空間模型算法用于Web信息檢索的辦法。理論分析和實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的方法大大提高了Web信息檢索的性能,節(jié)省了存儲(chǔ)空間,加快了計(jì)算速度,具有較高的精度和召回率。
參考文獻(xiàn)
1   Salton G.The SMART retrieval system-experiments in automatic document processing.USA:Prentice Hall,1971
2   陶躍華.基于向量的相似度計(jì)算方案.云南師范大學(xué)學(xué)報(bào),2001;21(10)
3   陸玉昌,魯明羽.向量空間法中單詞權(quán)重函數(shù)的分析和構(gòu)造.計(jì)算機(jī)研究與發(fā)展,2002;39(10)
4   劉芳,盧正鼎.有效地檢索HTMl文檔.小型微型計(jì)算機(jī)系統(tǒng),2000;21(9)
 

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
久久精品亚洲热| 久久激情网站| 久久精品国产一区二区三区| 亚洲欧美成人综合| 国产亚洲综合性久久久影院| 久久久久在线| 亚洲三级视频在线观看| 999亚洲国产精| 国产精品成人v| 久久精品成人一区二区三区蜜臀| 亚洲少妇最新在线视频| 午夜精品久久久| 亚洲成人原创| 国产精品狠色婷| 久久字幕精品一区| 一区二区久久久久久| 亚洲欧美视频在线| 亚洲男同1069视频| 欧美一区久久| 99国产精品| 日韩一区二区电影网| 一区二区三区欧美亚洲| 国内精品视频在线观看| 欧美二区在线观看| 午夜欧美精品久久久久久久| 亚洲国产mv| 亚洲深夜av| 激情久久五月天| 欧美午夜一区二区三区免费大片| 欧美三级电影一区| 久久一综合视频| 亚洲欧美成人一区二区三区| 久久se精品一区精品二区| 亚洲精品日韩在线| 国产一区二区三区黄视频| 国产日韩欧美91| 欧美日韩一区二区在线| 久久亚洲国产成人| 狂野欧美激情性xxxx欧美| 欧美成人蜜桃| 欧美日韩亚洲天堂| 国产精品日韩欧美综合| 欧美激情一区二区三区在线视频观看 | 欧美一级片在线播放| 国产亚洲毛片在线| 一区在线观看| 亚洲精品久久久久久久久| 在线综合亚洲欧美在线视频| 欧美一级在线亚洲天堂| 亚洲精品日本| 99国产精品| 亚洲国产精品嫩草影院| 亚洲欧美日韩精品一区二区| 欧美一区二区久久久| 亚洲精品极品| 亚洲欧美精品在线| 美女精品国产| 久久久青草婷婷精品综合日韩 | 亚洲一区激情| 亚洲人成在线免费观看| 亚洲一区精品视频| 久久中文字幕一区| 国产精品爱久久久久久久| 激情久久五月天| 国产精品99久久久久久久久 | 久久国产欧美精品| 中文在线不卡视频| 久久伊人一区二区| 欧美午夜不卡视频| 精品电影一区| 亚洲免费伊人电影在线观看av| 亚洲最新在线视频| 亚洲毛片av| 91久久精品国产91性色| 亚洲国产成人av好男人在线观看| 国内精品久久久久伊人av| 最近中文字幕日韩精品| 亚洲国产日韩在线一区模特| 亚洲免费一在线| 艳女tv在线观看国产一区| 99精品国产在热久久下载| 先锋影音国产一区| 欧美久久久久久久| 欧美日本免费| 国产综合一区二区| 亚洲先锋成人| 午夜精品久久久| 一区二区三区四区五区精品| 久久人人97超碰国产公开结果| 欧美新色视频| 91久久国产综合久久91精品网站| 久久国产精品色婷婷| 性欧美8khd高清极品| 欧美日韩国产一区二区三区地区| 欧美日韩国产一区二区三区地区 | 亚洲私拍自拍| 午夜精品久久久99热福利| 香蕉久久夜色| 欧美另类亚洲| 亚洲国产高清视频| 亚洲第一黄色网| 亚洲黄网站在线观看| 性欧美长视频| 国产精品福利在线| 99成人精品| 日韩手机在线导航| 麻豆国产va免费精品高清在线| 国产欧美日韩综合一区在线播放| 制服丝袜亚洲播放| 国产精品99久久久久久久久| 欧美黄色一区二区| 国产精品qvod| 亚洲精品在线二区| 日韩午夜在线电影| 女主播福利一区| 欧美视频在线观看免费| 亚洲人成网在线播放| 亚洲日韩第九十九页| 欧美电影免费观看高清| 亚洲电影在线免费观看| 亚洲国产精品一区二区www在线| 久久久久久久久久久久久女国产乱| 国产精品午夜电影| 亚洲香蕉视频| 欧美亚洲综合在线| 毛片av中文字幕一区二区| 国产一区二区三区在线观看免费视频 | 国产精品资源在线观看| 国产日韩亚洲欧美综合| 在线观看欧美| 一区二区三区三区在线| 在线亚洲自拍| 欧美色综合天天久久综合精品| 一区二区三区国产精华| 亚洲尤物在线视频观看| 国产精品免费看片| 亚洲激情在线观看视频免费| 日韩午夜免费视频| 欧美亚州韩日在线看免费版国语版| 亚洲一二三区视频在线观看| 欧美一级视频精品观看| 国产亚洲欧美另类一区二区三区| 亚洲第一精品电影| 欧美黄色一区| 国产精品99久久久久久久vr | 亚洲国产高清aⅴ视频| 欧美国产大片| 一本色道久久综合亚洲精品不| 亚洲欧美一区二区三区在线 | 在线观看日韩av先锋影音电影院| 亚洲精品孕妇| 欧美一区视频| 国产中文一区二区| 91久久久久久久久| 久久国产99| 激情五月婷婷综合| 99精品黄色片免费大全| 国产精品第一区| 久久av资源网| 欧美区一区二区三区| 亚洲午夜激情网页| 久久精品国产精品亚洲| 亚洲国产精品电影| 午夜欧美理论片| 依依成人综合视频| 亚洲一区二区三区四区五区午夜| 国产香蕉久久精品综合网| 亚洲三级国产| 国产精品一二三四| 91久久综合| 国产精品久久久久久妇女6080| 久久精品国产99国产精品| 欧美日韩国产123区| 午夜久久资源| 欧美精品国产精品日韩精品| 亚洲欧美在线一区二区| 欧美激情视频一区二区三区在线播放 | 亚洲影视中文字幕| 久久亚洲精品欧美| 妖精成人www高清在线观看| 久久久久久久久伊人| 亚洲美女性视频| 久久久久久91香蕉国产| 日韩亚洲一区二区| 美国十次成人| 午夜在线成人av| 欧美日韩美女在线观看| 久久精品99| 国产精品自拍视频| 亚洲视频福利| 亚洲国语精品自产拍在线观看| 欧美一区二区三区在线播放| 亚洲日本中文| 久久久免费观看视频| 亚洲视频一区| 欧美精品一区二区三区蜜臀| 久久精品二区亚洲w码| 国产乱人伦精品一区二区 | 韩国三级电影久久久久久| 亚洲欧美久久久|