《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于改進KNN的消費者評價信息情感分類研究
基于改進KNN的消費者評價信息情感分類研究
2014年微型機與應用第24期
劉曉菲1,丁香乾1,石 碩1,李林春2,李忠態(tài)2
(1.中國海洋大學 信息科學與工程學院,山東 青島 266100; 2.紅塔煙草(集團)有限責任公司信息網絡科,云南 玉溪 653100)
摘要: 面對大數據時代消費者評價的海量信息,為了識別消費者評價信息的情感傾向,及時掌握消費者的評價信息反饋,采用K-近鄰(KNN)算法對消費者評價信息進行情感分類,但是該算法在文本分類過程中因文本特征向量的維度高,使得算法的時間復雜度和空間復雜度較高,計算的開銷很大。針對這一問題,通過對獲取信息的文本結構以及情感表達特點的分析,采用一種改進的KNN算法進行文本情感分類。在對消費者評價信息進行分類時,先由潛在語義分析算法對文本特征向量進行降維處理,然后利用加權KNN算法進行分類。實驗結果表明,該方法在提高文本分類速度的同時保持了良好的分類效果。
Abstract:
Key words :

  摘  要: 面對大數據時代消費者評價的海量信息,為了識別消費者評價信息的情感傾向,及時掌握消費者的評價信息反饋,采用K-近鄰(KNN)算法對消費者評價信息進行情感分類,但是該算法在文本分類過程中因文本特征向量的維度高,使得算法的時間復雜度和空間復雜度較高,計算的開銷很大。針對這一問題,通過對獲取信息的文本結構以及情感表達特點的分析,采用一種改進的KNN算法進行文本情感分類。在對消費者評價信息進行分類時,先由潛在語義分析算法對文本特征向量進行降維處理,然后利用加權KNN算法進行分類。實驗結果表明,該方法在提高文本分類速度的同時保持了良好的分類效果。

  關鍵詞: 大數據;特征降維;LSA算法;KNN算法;情感分類

0 引言

  近年來,隨著電子商務、社交網站、個人博客和微博的蓬勃發(fā)展,互聯(lián)網進入了一個嶄新的時代——大數據時代。大數據時代廣大消費者有了更廣闊的發(fā)表自己意見的空間,人們參與討論和發(fā)布自己的觀點、態(tài)度和情感信息的熱情與日俱增,因此帶有主觀色彩的言論和評論的互聯(lián)網信息日益豐富。這些海量的、帶有情感色彩的、非結構化的文本包含了大量的信息,企業(yè)可以從中獲得用戶對產品或服務的意見,而消費者在消費前可以得到更多的建議,因此對消費者的意見、觀點、評價等傾向性信息的分析有著重要的實用價值。情感分類[1]是隨之興起的一個研究領域,它是指通過挖掘和分析文本中立場、觀點、情緒等主觀信息,對文本的情感傾向做出類別判斷,將其分為正面或負面。目前,比較常用的分類算法有:支持向量機(SVM)[2]、貝葉斯(NB)[3]、K-近鄰(KNN)等,其中KNN方法有著廣泛的應用領域。

  KNN算法在進行文本分類時,由于計算量大而使其效率大大降低,導致分類效果不是很理想,制約了算法的應用。近年來許多學者提出針對KNN的改進算法,例如參考文獻[4-6]中的算法都是通過減少需要比較的樣本數,從而達到提高分類效率的目的。KNN在進行文本分類時文本特征向量的維度高,使得算法的時間復雜度和空間復雜度較高,但真正對分類起作用的維數往往是小于文本本身的維數,那些對分類意義不大的維數往往會成為噪聲,從而影響分類的準確率。針對上述KNN存在的問題,本文從降低特征維數以減少計算量的方面進行改進,提出LSA-KNN算法,對消費者評價進行情感分類分析,期望能克服KNN分類速度較慢的缺陷,同時又能保持較高的準確率。

1 KNN的基本原理

  KNN[7-8]是一種經典的基于統(tǒng)計的分類方法。其形式化描述為:基于向量空間模型(VSM),將每個實例視為n維向量空間Rn中的一個點。假設n個帶類標識的實例數據為(X1,y1),(X2,y2),…,(Xn,yn),其中Xi是實例的向量表示,yi則是該實例對應的類別,類別的取值為0、1,表示兩類,設0代表正面,1代表負面。對于給定的實例X,可以通過式(1)判斷其類別:

  1.png

  其中,若y值大于給定的閾值0.5,則X屬于類1;當其小于0.5時,則X屬于類0。其中,Lk(X)表示與給定實例X距離最近的k個實例的值。

2 LSA-KNN分類算法

  潛在語義分析(LSA)是一種用于自動實現知識提取和表示的理論和方法,它通過對大量的文本集進行統(tǒng)計分析,從中提取出詞語的上下文使用含義[9]。在進行文本的分類過程中,文本特征往往采用VSM進行描述,利用矩陣奇異值分解(SVD)等方法進行處理,消除同義詞、多義詞的影響,從而達到快速降維的目的,提高了后續(xù)處理的精度。LSA的數學描述如下:設詞-文本矩陣X是個m×n矩陣,其中m為詞數,n為文檔數。令k<<min(m,n),rank(A)=r,k<Ra,經過SVD處理,矩陣X可表示為3個矩陣的乘積,即:

  X=SVDT(2)

  其中,S、D是m×r和n×r的正交矩陣,分別稱為矩陣X的左右奇異向量矩陣;V是r×r的對角矩陣,是矩陣X的奇異標準形,其對角元素為矩陣X的奇異值。

  V=diag(δ1,δ2,…,δr)  δ1≥δ2≥…≥δr>0(3)

  矩陣X的奇異值按遞減順序排列成對角矩陣V,取V的前k個最大奇異值構成k×k的Vk,分別取S和D的前k列構成m×k的Sk和n×k的Dk,得到矩陣X的k-秩近似矩陣Xk:

  Xk=SkVkDkT(4)

  其中,Sk和Dk中的行向量分別作為詞向量和文檔向量;k是降維之后的維數。實際應用中k的值常常取到幾百,極大地減少了文本向量的維數,利用LSA對文本特征向量矩陣進行奇異值分解和取k-秩近似矩陣,既可以消除文本矩陣中的噪聲,凸顯詞與文本之間的語義關系,又可大大縮減特征向量空間,從而提高文本分類的效率。

  針對之前提到的KNN存在的不足,本文提出LSA-KNN分類算法,先由LSA算法進行特征降維,然后利用加權KNN算法進行分類。算法步驟如下:

 ?。?)設中文文本數為N,文檔訓練集合表示為:D=D(T1,W1;T2,W2;…;TN,WN),將T1,T2,…,TN看成一個n維坐標系,W1,W2,…,WN為對應的坐標值。兩個文本之間的相似度可以通過兩個向量(分別設為T1=(μ1,μ2,…,μN),T2=(λ1,λ2,…,λN))之間夾角α的余弦值計算:

  5.png

  記文本Ti和Tj的相似度為sim(Ti,Tj),則文檔訓練集的相似矩陣定義為:

  6.png

  (2)利用LSA算法思想對文本特征矩陣W做降維處理,得到降維后的r階矩陣Wr。

  (3)利用(7)計算測試文本集中每個文本的相似度[5],根據相似度,在訓練文本集中選出與新文本最相似的k個文本。

  7.png

  其中,di為訓練樣本,X為測試樣本。

  (4)測試文本的k個近鄰中,根據式(8)依次計算每類的權重:

  8.png

  其中,T為測試文本的特征向量,sim(T,Tj) 為文本相似度計算公式。函數y(Tj,Ti)為:

  9.png

 ?。?)比較類的權重,將測試文本分配到權重最大的那個類別中。

  本文在上述算法中應用潛在語義分析大大減少了對分類意義不大的噪聲,有效降低了特征向量的維數,從而有效解決KNN存在的運行效率不高的問題。

3 實驗結果與分析

  3.1 實驗性能評估指標

  實驗采用的評估文本分類性能指標有:查準率P、查全率R和測試值F1。

  查準率公式為:

  1012.jpg

  3.2 實驗數據集

  實驗中采用的語料為酒店網絡評價文本,首先從攜程旅行網(http://www.ctrip.com)搜集了2013年北京(BJ)、上海(SH)、青島(QD)3個城市的酒店評論,并對所有評論認真審查,去除語言不規(guī)范及重復文本,最終選取9 000篇評論作為本文研究所需要的語料庫,稱為總語料庫(HR)。北京、上海、青島3個城市的酒店評價各為3 000篇,其中每個城市的酒店評論文本中正面評論文本1 500篇,負面評論文本1 500篇。將選取的文本轉換為統(tǒng)一的文本格式,同時將所有的語料分為兩部分,其中6 000篇作為訓練語料集合(每個城市選取2 000篇,其中正面評論1 000篇,負面評論1 000),剩余3 000篇(每個城市選取1 000篇,其中正面評論500篇,負面評論500篇)作為測試語料集合。本文以文本的句子為基本單位,首先利用中科院ICTCLAS分詞系統(tǒng)[1.0]對評論文本進行分詞處理,并且利用中文停用詞表(1 028個停用詞)去掉停用詞,得到特征詞2 216個,然后采用LSA方法對特征詞進行降維處理后得到300個特征詞,最后利用KNN分類器對文本集進行情感分類。

  3.3 實驗結果

  在實驗中,先將改進后的算法與傳統(tǒng)的KNN算法進行比較,實驗結果如表1所示。

001.jpg

  由表1可以看出,改進后的算法與傳統(tǒng)的KNN算法相比,在查準率、查全率、F1值方面都略有提升,以總體語料庫為例,查準率平均值提高了2.55%,查全率平均值提高了2.45%,F1平均值提高了2.45%。北京、上海、青島3個城市的評論文本中,對正面評價的識別率均高于負面評論文本的識別率,造成這種現象的原因主要是實驗中對否定詞處理不當,例如某條評論為“酒店房間不夠寬敞,酒店服務不是很好”,這條評論本身屬于負面評論,但由于文本分類處理時沒有進行否定詞處理,導致文本被分到正面評論中。

  為了驗證文本算法的有效性,設計了本文算法與SVM方法和貝葉斯方法的對比實驗。全語料庫的訓練集和測試集,采用查全率、查準率以及F1值刻畫性能的優(yōu)劣。表2是3種方法的實驗結果。

002.jpg

  表2的實驗結果表明,與表現較好的傳統(tǒng)機器學習算法相比,LSA-KNN算法在情感分類方面各項性能指標都高于貝葉斯方法,接近SVM方法的分類效果。

  上述實驗結果表明:與傳統(tǒng)的KNN算法相比,改進后的算法情感分類的效率明顯提高,并且與SVM、貝葉斯方法相比,也有良好的分類效果。

4 結論

  針對消費者評價信息的情感分類問題,本文采用一種改進的KNN算法。在進行情感分類時,先用LSA算法進行特征降維,然后采用加權KNN算法進行分類。實驗表明,與傳統(tǒng)KNN算法相比,改進后的KNN算法分類的速度顯著提高,并且保持了良好的分類效果。在后繼的研究中,將結合網絡評論情感極限方面、否定詞方面展開研究,將情感分析研究融合到商品評價的相關領域,使研究的內容真正在實踐中指導實際,結合實踐為廣大消費者服務。

參考文獻

  [1] PANG B, LEE L. Opinion mining and sentiment analysis[J]. Foundations and Trends in Information Retrieval,2008,2(1-2):1-135.

  [2] Zhang Min, Ye Xingyao. A generation model to unify topic relevance and lexicon-based sentiment for opinion retrieval [C]. Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, New York, NY, USA, 2008: 411-419.

  [3] CUI H, MITTAL V O, DATAR M. Comparative experiments on sentiment classification for online product reviews[C].  Proceedings of the 21st National Conference on Artificial Intelligence, 2006: 1265-1270.

  [4] 王煜,白石,王正歐.用于Web文本分類的快速KNN算法[J].情報學報,2007,26(1):60-64.

  [5] 江濤,陳小莉,張玉芳,等.基于聚類算法的KNN文本分類算法研究[J].計算機工程與應用,2009,45(7):153-155.

  [6] 李榮陸,胡運發(fā).基于密度的KNN文本分類器訓練樣本裁剪方法[J].計算機研究與發(fā)展,2004,41(4):539-545.

  [7] Du Hao, Chen Yangqiu. Rectified nearest feature line segment for pattern classification[J]. Pattern Recognition,2007,40(5):1486-1497.

  [8] 樊娜,安毅生,李慧賢.基于K—近鄰算法的文本情感分析方法研究[J].計算機工程與設計,2012,33(3):1160-1164.

  [9] 鐘將,劉榮輝.一種改進的KNN文本分類[J].計算機工程與應用,2012,48(2),142-144.


此內容為AET網站原創(chuàng),未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
亚洲午夜精品久久| 欧美日韩网站| 日韩午夜中文字幕| 欧美亚一区二区| 香港久久久电影| 欧美一区二区视频观看视频| 国产色爱av资源综合区| 久久久噜久噜久久综合| 91久久精品www人人做人人爽| 亚洲国产婷婷| 欧美三级乱人伦电影| 午夜精品久久久久久久久久久| 欧美一级视频免费在线观看| 精品成人免费| 欧美视频导航| 欧美日韩一区二区三区在线观看免 | 99在线视频精品| 国产精品任我爽爆在线播放 | 国产精品卡一卡二卡三| 久久久亚洲午夜电影| 久久动漫亚洲| 亚洲视频免费观看| 久久不射电影网| 一本色道久久综合狠狠躁的推荐| 日韩视频在线永久播放| 国产一区二区成人| 欧美日在线观看| 欧美亚一区二区| 国产精品日韩欧美一区| 国产欧美日韩一级| 欧美日韩视频在线观看一区二区三区| 欧美精品三区| 裸体丰满少妇做受久久99精品| 亚洲视频免费观看| 亚洲欧美美女| 中文一区字幕| 午夜精品视频网站| 久久久久青草大香线综合精品| 美国成人直播| 久久精品视频在线播放| 亚洲伊人久久综合| 一区二区三区产品免费精品久久75 | 国产主播一区二区| 欧美午夜精品| 国产精品一区二区三区久久久 | 性欧美暴力猛交另类hd| 亚洲国产精品黑人久久久| 一本一本a久久| 先锋亚洲精品| 最新日韩在线视频| 亚洲综合色自拍一区| 久久久久久久一区二区| 欧美肥婆在线| 老牛嫩草一区二区三区日本| 欧美激情在线免费观看| 国产精品免费aⅴ片在线观看| 国内自拍一区| 日韩午夜av| 久久aⅴ国产紧身牛仔裤| 亚洲免费不卡| 亚洲精品乱码视频| 最新高清无码专区| 亚洲免费在线电影| 欧美成人免费观看| 国产欧美va欧美不卡在线| 亚洲日韩欧美视频一区| 亚洲国产高清在线观看视频| 黄色精品一区二区| 国产在线欧美日韩| 日韩视频不卡| 亚洲国产精品99久久久久久久久| 欧美有码在线视频| 99国产欧美久久久精品| 99综合在线| 久久久久欧美精品| 国产精品草莓在线免费观看| 伊人成综合网伊人222| 亚洲尤物精选| 先锋影音久久久| 艳妇臀荡乳欲伦亚洲一区| 久久久免费av| 欧美啪啪一区| 欧美日韩综合视频| 禁久久精品乱码| 香蕉久久a毛片| 亚洲一区二区四区| 欧美高清自拍一区| 欧美日韩亚洲国产一区| 精品成人一区| 午夜精品久久久久久久白皮肤| 午夜欧美大片免费观看| 在线天堂一区av电影| 久久夜色精品国产| 欧美大片免费观看在线观看网站推荐| 国产精品一区二区你懂的| 亚洲美女在线视频| 亚洲精品免费在线播放| 久久人人超碰| 国产三级欧美三级日产三级99| 亚洲色图在线视频| 性欧美1819性猛交| 亚洲一区免费| 欧美日韩国产影片| 国产精品一区二区在线观看| 亚洲精品一区二区三区婷婷月| 最新高清无码专区| 欧美成人中文字幕| 精品成人久久| 亚洲第一久久影院| 久久精品久久综合| 国产日本欧美一区二区三区在线| 亚洲午夜久久久久久久久电影院| 在线视频亚洲一区| 欧美三日本三级少妇三99| 亚洲免费久久| 亚洲视频在线观看免费| 欧美片在线观看| 亚洲精品欧美极品| 99在线|亚洲一区二区| 欧美精品在线一区二区| 亚洲精品国产精品乱码不99| 亚洲美女性视频| 先锋影音久久久| 国产精品日韩欧美一区二区三区| 一区二区三区视频在线播放| 久久精品毛片| 亚洲视频一区二区免费在线观看| 欧美精品在线一区| 日韩亚洲精品视频| 亚洲一区二区av电影| 玖玖视频精品| 激情婷婷亚洲| 亚洲精品日本| 欧美伦理视频网站| 99视频在线观看一区三区| 亚洲永久免费| 国产欧美精品日韩区二区麻豆天美 | 午夜免费久久久久| 久久久久久一区二区三区| 伊伊综合在线| 亚洲图色在线| 新67194成人永久网站| 国产美女高潮久久白浆| 欧美主播一区二区三区| 欧美99久久| 国产真实乱偷精品视频免| 久久av红桃一区二区小说| 老鸭窝91久久精品色噜噜导演| 在线视频国内自拍亚洲视频| 香蕉成人伊视频在线观看| 久久久.com| 91久久国产综合久久| 亚洲一区3d动漫同人无遮挡| 国产美女精品免费电影| 亚洲国产va精品久久久不卡综合| 欧美福利视频网站| 一区二区三区精品久久久| 欧美一区二区三区另类| 欧美少妇一区二区| 午夜精品一区二区三区电影天堂| 久久人体大胆视频| 亚洲三级电影全部在线观看高清| 亚洲一区二区免费看| 国产日韩视频| 9色porny自拍视频一区二区| 国产精品一区二区久久精品| 亚洲国产成人不卡| 欧美视频在线观看视频极品| 欧美一区二区成人| 欧美另类久久久品| 先锋资源久久| 欧美日韩不卡视频| 欧美一区二区三区久久精品| 欧美精彩视频一区二区三区| 亚洲一区二区三区涩| 欧美a级片一区| 亚洲欧美在线网| 欧美国产三区| 午夜视频在线观看一区| 欧美日韩国产影院| 亚洲成色最大综合在线| 久久精品女人天堂| 亚洲精品免费在线观看| 久久精品在线| 一本久久青青| 美日韩免费视频| 亚洲欧美日本伦理| 欧美一区二区福利在线| 亚洲高清视频一区| 午夜在线精品偷拍| 亚洲人成在线播放| av不卡在线观看| 国产亚洲亚洲| 亚洲欧美激情一区| 亚洲国产欧美国产综合一区| 久久精品国产在热久久| 亚洲天堂视频在线观看| 欧美精品 国产精品| 久久精品国产亚洲高清剧情介绍| 国产精品久久久久久久久久ktv|