《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于改進KNN算法的中文文本分類方法
基于改進KNN算法的中文文本分類方法
來源:微型機與應用2011年第18期
王愛平, 徐曉艷, 國瑋瑋, 李仿華
(安徽大學 計算智能與信號處理教育部重點實驗室,安徽 合肥230039)
摘要: 介紹了中心向量算法和KNN算法兩種分類方法。針對KNN分類方法在計算文本相似度時存在的不足,提出了改進方案。新方案引入了中心向量分類法的思想。通過實驗,對改進的KNN算法、中心向量算法和傳統的KNN算法應用于文本分類效果進行了比較。實驗結果表明,改進的KNN算法較中心向量法和傳統的KNN算法在處理中文文本分類問題上有較好的分類效果,驗證了對KNN算法改進的有效性和可行性。
Abstract:
Key words :

摘   要: 介紹了中心向量算法和KNN算法兩種分類方法。針對KNN分類方法在計算文本相似度時存在的不足,提出了改進方案。新方案引入了中心向量分類法的思想。通過實驗,對改進的KNN算法、中心向量算法和傳統的KNN算法應用于文本分類效果進行了比較。實驗結果表明,改進的KNN算法較中心向量法和傳統的KNN算法在處理中文文本分類問題上有較好的分類效果,驗證了對KNN算法改進的有效性和可行性。
關鍵詞: 文本分類;中心向量法;KNN;相似度

    由于互聯網上可用的文本信息的迅速增長,在信息搜集中,常會有急需查找和組織相關的信息來獲得所需要的文本知識,因此文本自動分類技術就變得越來越重要,同時,提高文本自動分類的整體效果也成了一種新的挑戰。目前常用的文本分類算法有樸素貝葉斯(Native Bayes)[1]、K近鄰算法KNN(K Nearest Neighbor)[2]、支持向量機SVM(Support Vector Machine)[3]等。其中K近鄰分類算法是一種基于統計的分類方法,具有思路簡單、易實現、無需訓練過程等優點,因此得到了廣泛應用。相關研究證明,K近鄰算法是向量空間模型下最好的分類算法之一。
    盡管如此,K近鄰算法仍然存在很多不足,本文針對其中的不足之處提出了改進的方法。
1 基于近鄰的分類方法
1.1 中心向量法

    中心向量法[4]的基本思想是,根據屬于某一類別的所有訓練文本向量,計算該類別的中心向量,在進行分類時,計算待分類文本向量與每個類別中心向量的相似度,然后將其歸入與之相似度最大的那個類別。該方法也可以看成是K近鄰分類方法的一種特殊情況,其有效地降低了分類時的開銷。類中心向量的求法通常有三種,本文采用如下的計算方法:
    將某一類別中所有的文本向量求和得到類中心向量,表示成公式為:
  
1.2 傳統的K近鄰算法
    K近鄰[2]分類方法是一種懶惰的、有監督的、基于實例的機器學習方法。該算法的基本思路是,先將訓練文本集中的所有文本表示成向量的形式,再將這些文本向量組成文本向量集并儲存起來。當待分類文本到達時,計算這篇文本與訓練文本集中每一個文本的相似度,并且將計算得到的值按降序排列,找出排在最前面的K篇文本,然后根據這K篇文本所屬的類別來判斷待分類文本的類別。計算文本相似度的方法通常有歐氏距離、向量內積和夾角余弦三種。本文采用夾角余弦計算文本之間的相似度,公式如下:
  

 


鄰算法的分類方法達到比較穩定的性能改進。進行增減操作的最大次數也是一個比較難確定的值,但是實驗表明,當把增減操作最大次數設為5時,可以獲得較好的分類效果。
    實驗數據選取中文語料庫中的4個類別作為訓練文本集,每類文本的篇數不等。改進的K近鄰算法的分類結果如表2、表3和圖1所示。

    從2表可以看出,對于各個類別,使用改進的K近鄰分類算法后其準確率、召回率和F1值都比使用中心向量法和傳統的K近鄰算法有明顯的提高。從圖1可以看出,如果從整體上評價測試結果,使用傳統的K近鄰算法的分類效果在微F1值和宏F1值都比使用中心向量算法提高近1個百分點,使用改進的K近鄰算法的分類效果在微F1值和宏F1值又都比傳統的K近鄰算法提高近3個百分點。所以,改進的K近鄰算法比中心向量算法和傳統的K近鄰算法有較好的分類效果。
    本文提出的改進的K近鄰算法,與傳統的K近鄰算法相比,引入了中心向量分類算法的思想,在相似度計算方面進行了改進。從實驗結果可以得到,改進的K近鄰分類算法的分類效果比傳統的K近鄰算法高出3個百分點,同時也驗證了對算法改進的有效性和可行性。下一步的工作就是通過進一步學習其他的分類算法,嘗試將其他的分類算法引入到K近鄰分類算法中,以達到更高的分類效果。
參考文獻
[1] 宮秀軍,孫建平,史忠植.主動貝葉斯網絡分類器[J]. 計算機研究與發展,2002,39(5):74-79.
[2] 張 寧,賈自艷,史忠植.使用KNN算法的文本分類[J].計算機工程,2005,31(8):171-173.
[3] JOACHIMS T. Text categorization with support vector machines: learning with many relevant features[C].In Proceeding of  ECML-98, 10th European Conference on Machine Learning, Berlin:Springer-Ver-lag, 1998:137-142.
[4] 王新麗.中文文本分類系統的研究與實現[D].天津大學碩士研究生論文,2007.
[5] 曹勇,吳順祥.KNN文本分類算法中的特征選取方法研究[J].科技信息(科技·教研),2006(12):26-28.
[6] 柴春梅,李翔,林祥.基于改進KNN算法實現網絡媒體信息智能分類[J].計算機技術與發展,2009,19(1):1-4.
[7] 劉懷亮,張治國,馬志輝,等.基于SVM與KNN的中文文本分類比較實證研究[J].信息系統,2008,31(6):941-944.(收稿日期:2011-05-27)

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
国产精品国产三级国产| 精品va天堂亚洲国产| 久久久亚洲影院你懂的| 亚洲女人小视频在线观看| 日韩午夜在线电影| 亚洲欧洲在线一区| 亚洲国产精品尤物yw在线观看 | 亚洲网站视频| 一区二区三区不卡视频在线观看| 亚洲精品中文字幕在线观看| 亚洲精品国精品久久99热一| 亚洲欧洲精品一区二区三区不卡 | 老色批av在线精品| 久久夜色精品一区| 久久亚洲视频| 美女黄毛**国产精品啪啪 | 国产日韩在线播放| 国产欧美亚洲日本| 国产午夜精品久久久久久久| 国产一区二区看久久| 国产综合18久久久久久| 激情亚洲网站| 亚洲激情校园春色| 亚洲精品一级| 一本久道久久综合狠狠爱| 亚洲深夜激情| 亚洲欧美激情一区二区| 欧美一区二区三区精品| 久久嫩草精品久久久精品一| 欧美一区二区| 久久精品二区亚洲w码| 久久久久久亚洲精品中文字幕| 葵司免费一区二区三区四区五区| 免费观看成人www动漫视频| 欧美成人免费观看| 欧美日韩综合久久| 国产精品视频免费一区| 国产综合色产在线精品| 亚洲黄色一区二区三区| 在线亚洲欧美视频| 欧美一区二区视频免费观看| 亚洲人成在线影院| 亚洲午夜未删减在线观看| 欧美一级免费视频| 久久久久久自在自线| 欧美国产在线电影| 国产精品福利在线观看| 韩日视频一区| 日韩午夜av| 亚洲欧美日韩爽爽影院| 亚洲丰满在线| 亚洲女人天堂av| 老**午夜毛片一区二区三区| 欧美日韩在线视频观看| 国产一区二区剧情av在线| 91久久综合| 午夜精品福利一区二区蜜股av| 亚洲国内欧美| 亚洲男人影院| 欧美波霸影院| 国产精品自拍三区| 亚洲国产欧美在线人成| 亚洲免费网址| 一本一道久久综合狠狠老精东影业 | 亚洲性视频h| 久久婷婷人人澡人人喊人人爽| 欧美日本不卡高清| 国产亚洲欧洲997久久综合| 亚洲精品视频二区| 久久av资源网| 亚洲一区二区高清视频| 欧美xx视频| 国产视频观看一区| 亚洲精选视频在线| 久久岛国电影| 午夜精彩视频在线观看不卡 | 久久久蜜桃精品| 欧美肉体xxxx裸体137大胆| 国内精品久久久久影院 日本资源| 亚洲美女区一区| 亚洲国产成人av好男人在线观看| 亚洲一区视频在线| 欧美大片免费久久精品三p| 国产精品免费看片| 最新国产成人av网站网址麻豆| 性高湖久久久久久久久| 亚洲一区二区三区精品在线观看| 欧美成黄导航| 精品99视频| 欧美一区二区三区免费看 | 香港成人在线视频| 欧美日韩国产123| 在线精品视频免费观看| 亚洲欧美视频在线观看视频| 国产精品99久久久久久有的能看| 蜜桃久久精品一区二区| 国产一区日韩一区| 亚洲综合首页| 午夜视频在线观看一区| 欧美午夜理伦三级在线观看| 亚洲日本免费电影| 亚洲激情偷拍| 鲁鲁狠狠狠7777一区二区| 国产一区二区三区久久| 亚洲欧美一区二区精品久久久| 亚洲视频日本| 欧美日韩一区二区三区视频| 亚洲精品乱码| av成人免费| 欧美日韩成人在线观看| 亚洲激情婷婷| 亚洲乱码国产乱码精品精可以看| 免费日韩av| 亚洲国产精品va在线看黑人动漫| 亚洲黄一区二区| 久久亚洲欧美国产精品乐播| 激情懂色av一区av二区av| 久久不射中文字幕| 久久精品视频在线免费观看| 国产精品无码永久免费888| 在线亚洲一区二区| 亚洲一区二区三区久久| 国产精品福利网站| 亚洲一区精品视频| 午夜视频在线观看一区二区三区| 国产精品视频成人| 亚洲欧美中文字幕| 欧美一区高清| 国内精品久久久| 亚洲高清网站| 欧美激情性爽国产精品17p| 亚洲人成网站777色婷婷| 一级日韩一区在线观看| 欧美日韩中文字幕| 中文国产成人精品久久一| 亚洲在线观看视频网站| 国产精品久久影院| 欧美一区二区性| 鲁大师成人一区二区三区 | 亚洲一级一区| 国产精品中文在线| 欧美资源在线观看| 免费日韩视频| 99精品国产福利在线观看免费| 亚洲欧美日韩精品在线| 国产视频一区欧美| 亚洲国产中文字幕在线观看| 欧美精品综合| 亚洲特级片在线| 久久精品一区二区三区中文字幕 | 一区二区三区免费在线观看| 亚洲欧美综合精品久久成人 | 亚洲美女黄网| 国产精品福利影院| 欧美一区二区日韩一区二区| 欧美成人情趣视频| 99精品国产在热久久下载| 午夜精品久久久久久99热软件| 国产亚洲一区二区在线观看| 亚洲日本中文字幕| 国产精品白丝jk黑袜喷水| 欧美呦呦网站| 欧美精品乱码久久久久久按摩| 亚洲一区二区在线免费观看| 蜜桃av噜噜一区| 亚洲午夜精品在线| 毛片基地黄久久久久久天堂| 一区二区三区免费网站| 久久手机精品视频| 日韩视频一区二区三区在线播放免费观看 | 最新亚洲视频| 国产精品久久久久久久久久免费 | 亚洲黄色性网站| 欧美视频在线观看| 欧美一区在线直播| 欧美日韩国产综合久久| 午夜在线成人av| 欧美精品一区二区三区蜜臀| 欧美一级理论片| 欧美日韩一区视频| 亚洲国产精品小视频| 国产精品jvid在线观看蜜臀| 亚洲国产精品一区二区www在线| 国产精品久久国产愉拍| 亚洲国产三级| 国产欧美一区二区三区在线看蜜臀| 亚洲肉体裸体xxxx137| 国产精品你懂的在线| 最新高清无码专区| 国产精品一区二区三区久久| 91久久线看在观草草青青| 国产精品社区| 中日韩美女免费视频网址在线观看 | 国产一区二区三区高清| 亚洲一级二级在线| 亚洲大片在线| 久久精彩视频| 一区二区三区高清在线观看| 蜜臀a∨国产成人精品| 欧美一级专区|