《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于特征噪聲加權的特征權重算法改進
基于特征噪聲加權的特征權重算法改進
來源:微型機與應用2012年第3期
趙 航1,楊天奇1,趙小廈2
(1.暨南大學 信息科學技術學院,廣東 廣州 510632; 2.華南師范大學 計算機學院,廣東 廣
摘要: 特征權重算法TF-IDF是文本分類的重要算法之一,該算法IDF值容易受特征噪聲影響出現波動。提出一種基于特征噪聲加權的特征權重改進算法,該算法通過分析噪聲特征的分布特點,對不能準確表達文檔真實意思的特征噪聲進行加權,降低特征噪聲對IDF的影響,最終有效地提高算法的精度和健壯性。
Abstract:
Key words :

摘  要: 特征權重算法TF-IDF是文本分類的重要算法之一,該算法IDF值容易受特征噪聲影響出現波動。提出一種基于特征噪聲加權的特征權重改進算法,該算法通過分析噪聲特征的分布特點,對不能準確表達文檔真實意思的特征噪聲進行加權,降低特征噪聲對IDF的影響,最終有效地提高算法的精度和健壯性
關鍵詞: 向量空間模型;文本分類;特征噪聲;特征權重;健壯性

 隨著信息技術的發展,信息極度膨脹,人們迫切希望找到一種信息自動處理技術。文本分類作為信息處理的技術之一,由于其能對信息進行分類,使得獲取信息更加容易,因而得到廣泛應用。在文本分類的算法中,空間向量法中的TF-IDF算法由于其以詞頻TF和逆文檔頻數IDF的乘積作為向量坐標系的值,具有簡單、直觀、處理速度快的優點,得到廣泛應用。但在理論和實際應用中有很大局限性,以至于其精度在各種文本分類中一直是較低的[1]。
本文針對噪聲特征對TF-IDF算法逆文檔頻率(IDF)影響進行分析,提出了一種IDF加權方法,調整對IDF產生影響的特征噪聲權重,有效減少了算法對噪聲的影響,提高了TF-IDF算法的精度和健壯性。雖然已有很多研究者對TF-IDF算法做了改進,從特征選擇上減少噪聲特征的選擇,但特征噪聲在分類中出現是不可避免的。
1 向量空間算法的分析
 向量空間算法的基本思想是用詞袋法表示文本,將文本看做特征空間的一個向量,用兩個向量之間的夾角來衡量兩個文本之間的相似度。用TF-IDF值表示向量空間的一個特征值權重。
詞語權重計算唯一的準則就是要最大限度地區分不同的文檔。所以針對詞語權重的計算,主要考慮3個因素[2]:
 (1)詞語頻率tf(term frequency):該詞語在此文檔中出現的頻率。常用的計算方法是tf(Tk)=■;其中TF(Tk)表示特征Tk出現的頻率。
 (2)詞語的倒排文檔頻率idf(inverse document frequency):該詞語在文檔中分布情況的量化,常用計算方法[3]為idf(Tk)=log2(N/nk+L)。其中N為文檔集合中的文檔數目;nk為出現過特征Tk的文檔數目;L根據實驗來確定。
 (3)歸一化因子(normalization factor):對各分量進行標準化。
 根據上述3個因素,可以得出:TF與IDF的聯合公式如下(其中i表示類別號):

 式(1)的提出基于這樣一種假設[2]:對區別文檔最有意義的詞語應該是在文檔中出現頻率足夠高,但在整個文檔中出現頻率足夠少的詞語。所以向量空間模型的基礎是詞語的出現頻率和出現的文檔頻率[2],但同時一個文檔中的特征在不管出現的頻率多少與文檔頻率的計算無關,文檔頻率的計算只與該特征在文檔中出現與否有關。而特征噪聲在文檔中出現一般是以較小的頻率出現。當一個特征以特征噪聲的形式在大量文檔中出現時(該特征本不應該在這些文檔中出現),文檔頻率計算出的值伴隨特征噪聲出現文檔數目的不同變化很大。由于沒有考慮特征受噪聲影響的程度,只是單純的以特征是否在文檔中出現為依據計算文檔頻率,文檔頻率就不能夠很好地在分類時起作用。
 TF-IDF算法的IDF函數本質是一種抑制噪聲的加權[3]。IDF函數認為文檔頻數少的單詞就重要,而文檔頻數多的單詞就無用,這樣也使IDF值容易受噪聲的影響。文檔中的用詞本身帶有很大的隨意性,用與不用某個詞都行。大量的文檔本身就不規范,并含有很多不規范的用詞,導致降低了IDF值對單詞權重的區分。
2 特征權重算法的改進
 針對傳統算法沒有考慮噪聲影響,對特征特點進行分析提出了改進算法。
2.1 文檔特征分析
 該文選擇了搜狗實驗室—搜狐新聞數據900篇文檔進行特征分析,選出一篇文檔Di,首先對Di進行分詞預處理,進行特征提取,特征降維。統計Di出現詞頻為t(t=1,2,3,…,10)的特征個數占該Di所有特征數Din的比例ri,且對所有文檔取平均值;然后進行特征降維前后文檔的對比。
 經統計得出,在降維前出現詞頻為1的特征所占比例約80%;詞頻為1和2的特征共占約90%。通過降維后詞頻為1的特征所占比例有所降低,但仍然超過50%,詞頻為1和2的特征共超過60%。由此可見特征詞頻為1、2占特征總數的絕大部分,雖然可以通過各種算法降低特征數,但降維后特征詞頻為1、2的仍然占特征總數的絕大部分。如果特征詞頻為1、2的特征屬于噪聲特征,這些特征在文檔中出現與否也許不會影響所在文檔的分類,但由于訓練庫的文檔數非常多,這樣可能會造成文檔頻率DF出現較大波動,使得IDF值出現大的波動,擾亂TF-IDF算法的準確性。
2.2 改進方法
 可以這樣認為:當特征詞頻TF較小時(例如TF=1),并不能有效地代表此特征在文檔中的重要性,有很大幾率是作者偶然性使用該特征;當特征詞TF較大時,很多次偶然使用同一特征詞的幾率不大,很可能是該文檔不得不使用該特征。由于文檔作者用詞具有很大的隨意性,可以很隨意用其他特征詞代替,從而很容易使TF較小的特征詞頻的TF=0,這一變化對IDF產生影響,如果詞頻TF在很多文檔中出現頻數很低,IDF值就更容易受文檔作者用詞的影響從而擾亂TF-ID特征值的計算,使TF-IDF特征值偏離代表分類權重的意義。
從上述分析可以得到文檔中大部分特征的詞頻為1或2,因此,如何降低噪聲特征影響對TF-IDF算法精度計算至關重要。
 本文降低特征噪聲對IDF值計算影響的方法主要是通過對統計文檔頻數進行加權。原算法文檔頻數計算值是統計特征在文檔集中出現的文檔數,而改進的算法是統計特征在文檔集中出現的加權文檔數。使噪聲特征降低對IDF值的影響,從而降低IDF的波動,提高TF-IDF算法的精度和穩定性。
使用WIDF(加權反文檔頻率)代替IDF,WIDF的計算公式如下

 實驗在確定式(2)中的wi值時,對Tk出現1和2的詞頻進行處理,因為1和2的詞頻低,且在圖1中可以看出占用比例很大的更容易受噪聲影響。當Tk在文檔中出現頻率為1時,wi通過實驗最終確定為0.5;頻率為2時,通過實驗最終確定為0.9;頻率大于2的詞頻通過實驗確定的wi非常接近1,所以出現頻率大于2時wi取為1。
3 實驗與分析
3.1 實驗數據

 實驗所有語料來源于搜狗實驗室—搜狐新聞數據(SogouC.reduced.20061127)選取財經、IT、健康、體育、旅游、教育、招聘、文化、軍事9個大類,總共4 500篇文檔、其中1 800篇作為訓練集(每個類200篇),余下的2 700篇(每個類300篇)文檔作為測試集。
3.2 評價指標
 實驗采用分類精度來評估權重算法在不同類上的分類性能。分類精度的定義如下:

 


 從表(1)可以看出在對2 700篇文檔進行分類時,當K從50~75變化時:TF-IDF算法錯誤識別文檔數在366~380范圍變化,波動范圍為14;TF-WIDF算法錯誤識別文檔數在351~357范圍變化,波動范圍為6;由此得出當選不同k值時TF-WIDF算法比TF-IDF算法更加穩定。
 從表(2)中可以看出TF-WIDF權重算法結合k-NN分類器在各類別上的精確度P除了在健康、財經有少許下降外大部分都有不同程度的提高,在所有類總體正確率提高0.004~0.008。可以得出TF-WIDF算法比TF-IDF算法更加精確,與本文使用已經適當優化了傳統TF-IDF算法有關,使其總體分類正確率高達0.864 4,在如此高的正確率下再提高任何一點都是非常困難的,而本文正是在如此高的正確率基礎上仍然使其提高0.004~0.008,足可以證明本文的改進是有效的。從而說明TF-WIDF能有效地減少由于文檔作者用詞不規范、用詞隨意性造成文檔特征噪聲對TF-IDF算法的影響。盡管改進后的權重算法取得了一定效果,但文本分類問題設計文本表示、相似的計算、算法決策等多個方面改進權重算法并未使分類效果得到明顯提高[4]。
通過加權減少了噪聲特征對文本分類系統精度的影響。本文研究了傳統的TF-IDF加權算法,在已適當優化算法基礎之上提出噪聲加權算法。實驗證明,在傳統算法基礎上改進的加權算法及其他一些算法基礎上的改進,都可有更好的表現。

參考文獻
[1] 陸玉昌,魯明羽.向量空間法中單詞權重函數的分析和構造[J].計算機研究與發展,2002,39(10):1205-1210.
[2] 魯松,李曉黎.文檔中詞語權重計算方法的改進[J].中文信息學報,2000,14(6):8-20.
[3] 李凱齊,刁興春.基于信息增益的文本特征權重改進算法[J].計算機工程,2011,37(1):16-21.
[4] 臺德藝,王俊.文本分類特征權重改進算法[J].計算機工程,2010,36(9):187-202.

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
亚洲精品视频在线看| 欧美专区亚洲专区| 狠狠爱www人成狠狠爱综合网| 亚洲网站视频福利| 亚洲国语精品自产拍在线观看| 在线成人性视频| 国产美女在线精品免费观看| 国产精品第一区| 欧美日韩一区成人| 欧美日韩精品免费观看| 欧美久久影院| 欧美日韩精品综合在线| 欧美日韩精品一区二区天天拍小说| 性欧美暴力猛交另类hd| 亚洲尤物影院| 亚洲免费在线观看| 亚洲欧美日韩国产中文| 亚洲欧美国产不卡| 欧美一级二区| 久久久999成人| 久久夜色精品国产欧美乱极品| 日韩一区二区精品视频| 亚洲精品国产精品国自产在线 | 亚洲一区黄色| 夜夜精品视频一区二区| 一级日韩一区在线观看| 一本久久知道综合久久| 亚洲视频精选| 午夜精品短视频| 久久国产精品久久国产精品| 亚洲国产欧美在线| 99精品欧美一区二区三区| 亚洲视频在线观看网站| 亚洲免费影视| 久久久精品一品道一区| 你懂的国产精品| 欧美日韩在线三区| 国产九九精品视频| 在线观看一区| aⅴ色国产欧美| 欧美一区二区日韩| 亚洲全部视频| 亚洲欧美国产毛片在线| 久久久九九九九| 欧美日韩大片| 国产人成一区二区三区影院 | 国产精品理论片在线观看| 国产女主播一区二区| 韩国女主播一区| 亚洲看片一区| 欧美亚洲一区二区在线观看| 亚洲国产另类 国产精品国产免费| 西西裸体人体做爰大胆久久久| 亚洲精品久久久久久下一站 | 午夜精品亚洲一区二区三区嫩草| 日韩视频欧美视频| 亚洲午夜精品久久久久久浪潮| 亚洲精选国产| 亚洲欧美一区二区视频| 另类综合日韩欧美亚洲| 欧美色视频日本高清在线观看| 欧美激情区在线播放| 欧美午夜精品电影| 韩国精品主播一区二区在线观看| 国产一区二区三区在线观看精品 | 国内久久婷婷综合| 亚洲精品久久久久久久久| 亚洲欧美日韩高清| 亚洲免费av电影| 欧美在线视频a| 欧美日韩小视频| 好吊日精品视频| 一区二区三区国产精品| 亚洲国产成人tv| 亚洲一区日韩在线| 欧美aaa级| 国产一区99| 亚洲视频在线一区| 亚洲日本成人网| 久久久午夜电影| 国产精品青草综合久久久久99 | 国产精品国产三级国产普通话蜜臀 | 亚洲国产一区二区三区在线播| 亚洲国产精品第一区二区三区| 在线日韩av永久免费观看| 中日韩视频在线观看| 亚洲国产女人aaa毛片在线| 亚洲欧美日韩天堂| 欧美日韩国产首页| 在线欧美视频| 久久成人免费日本黄色| 欧美亚洲一级| 欧美视频在线播放| 最新国产乱人伦偷精品免费网站 | 欧美一区二区视频在线观看| 夜夜嗨av一区二区三区四季av| 亚洲午夜激情网站| 免费成人美女女| 国产综合久久| 亚洲一区二区三区在线| 亚洲图片在线观看| 欧美日本视频在线| 亚洲国产精品专区久久| 亚洲国产黄色片| 久久综合精品国产一区二区三区| 欧美欧美全黄| 亚洲高清一区二| 亚洲黄色性网站| 久久裸体艺术| 国语自产精品视频在线看抢先版结局| 影音先锋中文字幕一区| 性久久久久久久久| 欧美夜福利tv在线| 国产女精品视频网站免费| 亚洲视频1区2区| 亚洲欧美日本伦理| 国产精品久久久久久久午夜 | 亚洲欧洲免费视频| 亚洲欧洲一区二区在线观看| 另类图片综合电影| 在线精品视频一区二区三四| 亚洲风情亚aⅴ在线发布| 久久永久免费| 在线精品亚洲一区二区| 亚洲激情视频在线| 欧美成人自拍| 亚洲精品国产精品国产自| 亚洲麻豆国产自偷在线| 欧美另类人妖| 夜夜嗨av一区二区三区| 一片黄亚洲嫩模| 国产精品theporn| 亚洲在线成人精品| 久久高清一区| 黄色成人免费观看| 91久久国产综合久久91精品网站| 亚洲欧美日韩天堂| 国产精品白丝jk黑袜喷水| 亚洲视频一区二区| 欧美一区二区日韩一区二区| 国产婷婷色一区二区三区四区| 日韩一区二区精品视频| 9国产精品视频| 国产精品国产三级欧美二区| 午夜精品免费在线| 久久在线播放| 亚洲美女黄网| 欧美一区91| 在线播放日韩欧美| 日韩午夜在线电影| 国产精品久久久久av| 欧美一区二区在线免费观看| 男男成人高潮片免费网站| 亚洲美女在线国产| 午夜精品999| 伊大人香蕉综合8在线视| 日韩五码在线| 国产欧美在线观看| 亚洲人成人99网站| 欧美日韩在线免费观看| 午夜在线播放视频欧美| 欧美99在线视频观看| 一区二区三区欧美| 久久天堂精品| 日韩五码在线| 久久久久久成人| 亚洲精品小视频在线观看| 欧美亚洲系列| 亚洲黄网站在线观看| 欧美一区二区三区免费在线看| 国产精品福利在线| 欧美资源在线| 欧美日韩综合一区| 久久国内精品视频| 欧美丝袜第一区| 亚洲国产女人aaa毛片在线| 欧美日韩国产电影| 香蕉av777xxx色综合一区| 欧美国产日韩一二三区| 午夜精品久久久久久久男人的天堂| 亚欧成人在线| 亚洲电影免费在线观看| 亚洲欧美国产另类| 亚洲第一视频| 欧美一区二区三区在线观看视频| 国产精品夜夜夜| 亚洲国产精品热久久| 国产精品美女久久久久久2018| 亚洲一区国产| 欧美二区在线播放| 亚洲欧美日韩电影| 欧美日韩国产免费观看| 久久精品二区亚洲w码| 国产精品久久久久久影视| 亚洲精品美女在线观看| 国产三区二区一区久久| 亚洲无限av看| 亚洲电影成人| 久久久久在线| 亚洲欧美日韩爽爽影院|