《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計應(yīng)用 > 中文客戶評論對象特征的抽取與聚類方法
中文客戶評論對象特征的抽取與聚類方法
2014年微型機與應(yīng)用第15期
周紅慶,吳揚揚
華僑大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,福建 廈門
摘要: 通過利用Apriori算法抽取評價對象的候選特征集,結(jié)合計算領(lǐng)域一致度和領(lǐng)域相關(guān)度對候選特征進行過濾,實現(xiàn)了對中文客戶評論的對象特征挖掘,并且用實驗驗證了該方法的有效性。
Abstract:
Key words :

  摘  要: 通過利用Apriori算法抽取評價對象的候選特征集,結(jié)合計算領(lǐng)域一致度領(lǐng)域相關(guān)度對候選特征進行過濾,實現(xiàn)了對中文客戶評論的對象特征挖掘,并且用實驗驗證了該方法的有效性。

  關(guān)鍵詞: 特征挖掘;領(lǐng)域一致度;領(lǐng)域相關(guān)度

  評論挖掘是一種以從評論數(shù)據(jù)中探尋有用信息為目標(biāo)的非結(jié)構(gòu)化數(shù)據(jù)挖掘技術(shù),主要包含評論對象的特征挖掘、評論觀點挖掘、評論觀點的極性以及強度判斷、評論挖掘結(jié)果的匯總以及按用戶觀點排序4個子任務(wù)[1]。

  評價對象的特征挖掘是指從大量的客戶評論中挖掘出用戶關(guān)注的評價對象特征。這一技術(shù)是分析用戶對評價對象的具體特征所持的情感傾向的前提,其準(zhǔn)確性和全面性是非常重要的。近年來,國內(nèi)外研究人員對評價對象的特征挖掘進行深入研究,他們采用很多不同方法來對特征進行挖掘[2-6]。本文針對中文客戶評論的特征挖掘的性能不夠理想的問題[7],提出了一種基于Apriori算法抽取候選特征集,集成領(lǐng)域一致度和領(lǐng)域相關(guān)度方法對候選特征進行過濾的方法,實現(xiàn)中文客戶評論對象的特征挖掘,并且通過實驗驗證這一方法的有效性。

1 評論對象的特征挖掘


001.jpg


  中文客戶評論對象的特征挖掘過程如圖1所示。首先,輸入不同評論對象的評論語料;然后對這些評論語料進行預(yù)處理,利用中科院計算所所研發(fā)的ICTCLAS系統(tǒng)對評論文本語料進行分詞和二級詞性標(biāo)注,以評論語料中句子為單位,進行詞性過濾,提取出評論語料中名詞和具有名詞功能的形容詞或者動詞或者名詞短語作為項,每一篇評論項組合起來作為一個事務(wù)在事務(wù)文件中存為一行。將每個評論對象的所有評論語料中的事務(wù)都存儲在一個事務(wù)文件中。經(jīng)過預(yù)處理后,每個評論對象均有一個事務(wù)文件。然后,應(yīng)用Apriori算法從事務(wù)文件中提取頻繁項集,并通過剪枝方法去除掉一些不合適的頻繁項,得到評價對象的候選特征集。最后,利用特征的領(lǐng)域相關(guān)度和領(lǐng)域一致度定義綜合評定指標(biāo),根據(jù)該指標(biāo)對候選特征進行過濾,得到評價對象的特征。

  1.1 評價對象的候選特征挖掘

  定義1 頻繁項:設(shè)I是m個項目的集合,T是n個事務(wù)集合,其中每個事務(wù)S是一個項目集合,并滿足S?哿I。由I中的若干項組成的集合稱為項集,包含k個項的項集稱為k-項集,包含項集的事務(wù)數(shù)稱為該項集的出現(xiàn)頻度。如果該項集的出現(xiàn)頻度大于或等于預(yù)先設(shè)定的最小支持度,則稱項集為頻繁項。

  定義2 鄰近規(guī)則:假設(shè)f是頻繁項,而且f包含n個詞,評論句s包含f,而且在f中的詞出現(xiàn)在s中的順序為:w1,w2,…,wn。如果在s中wi和wi+1(i=1,…n-1)的距離不超過兩個詞,則可以說f在s中是鄰近的。

  定義3 獨立支持度:頻繁項f的獨立支持度是指包含f本身但不包含f的超集的句子數(shù)量,即f的支持度減去f的超集支持度之和。若f的獨立支持度大于最小支持度,則其符合獨立支持度規(guī)則。

  挖掘評價對象的候選特征過程如算法1所示。首先,應(yīng)用Apriori算法從預(yù)處理得到的評價對象的事務(wù)文件中,提取滿足最小支持度的頻繁項集。通過分析評論對象特征的特性,發(fā)現(xiàn)3維以上頻繁項不可能是特征,所以只提取3維及其以下的頻繁項;然后,根據(jù)鄰近規(guī)則,去掉不在其相鄰位置的頻繁項;根據(jù)獨立支持度剪枝去掉被包含在其他頻繁項的冗余頻繁項;因為單字不可能是評價對象的特征,所以,刪去頻繁項集中的單字。

  算法1 評價對象的候選特征挖掘

  輸入:評論語料事務(wù)文件W,評論語料庫T

  輸出:頻繁特征集L

  方法:

  int minsupport,int k;

  //初始化最小支持度和頻繁項集的最高維度

  L0=Apriori(W,minsupport,k);

  //通過Apriori算法得到頻繁項集L0

  for each f∈L0 do

  //對于L0中的大于一維的項根據(jù)鄰近規(guī)則重新計算支持度

  if f.dimension﹥1 then//如果f的維度大于1

  f.count=0;//f的支持度重新設(shè)置為0

  for each t∈T do//對所有事務(wù)掃描一遍

  if f在t中是鄰近的do//若f在t中符合鄰近規(guī)則

  f.count++;//f的支持度加1

  end if

  end for

  end if

  end for

  L1={f∈L0|f.count≧minsupport};

  //刪除支持度小于最小支持度的項集

  for each f∈L1 do

  //掃描候選項集L1計算每個一維頻繁項的獨立支持度

  if f.dimension=1 then//若f的維度為1

  S={l∈L1|fl,f≠l};

  //得到包含項f的多維頻繁項集S

  for each l∈S do//掃描S中的多維頻繁項

  S.count+=l.count;

  //S的支持度為項的支持度S中項的支持度之和

  end for

  f.count=f.count-S.count;//得到f的獨立支持度

  end if

  end for

  L2={l∈L1|f.count≧minsupport};

  //刪除獨立支持度小于最小支持度的項

  return L={l∈L2|f.length﹥1};//刪除單字

  其中,minsupport表示給定的最小支持度,k表示給定的頻繁項集的最高維度。

  1.2 評價對象的特征過濾

  將不同的評價對象的評論語料看成是不同的領(lǐng)域的評論語料。真正的特征應(yīng)該在不同領(lǐng)域的評論分布不均勻,在其相關(guān)領(lǐng)域的評論文檔集中應(yīng)分布比較均勻。

  因此,本文通過計算特征的領(lǐng)域相關(guān)度及領(lǐng)域一致度,并對領(lǐng)域相關(guān)度和領(lǐng)域一致度進行量化,定義一個綜合評定指標(biāo),根據(jù)這個指標(biāo)可對應(yīng)用Apriori算法挖掘出來的候選特征進行過濾。

  (1)特征的領(lǐng)域相關(guān)度計算

  特征的領(lǐng)域相關(guān)度表示特征與領(lǐng)域的相關(guān)程度。設(shè)總共有n個領(lǐng)域{D1,D2,…,Dn},則候選特征t對于某領(lǐng)域Di的領(lǐng)域相關(guān)度定義為:

  12.jpg

  (2)特征的領(lǐng)域一致度計算

  特征的領(lǐng)域一致度表示特征在領(lǐng)域中的分布均勻度。設(shè)領(lǐng)域Di中有m個評論文檔{d1,d2,…,dm},則候選特征t對于Di的領(lǐng)域一致度定義為:

  34.jpg  其中,ft,dj表示特征t在文檔dj中的頻度。在式(3)中, H(t,Di)為信息熵,其值越大,表明t在各文檔中分布越均勻,t是該領(lǐng)域的可能性就越大。當(dāng)t在各文檔中出現(xiàn)的頻度相等的時候,H(t,Di)的值最大。

  (3)綜合評定指標(biāo)的定義

  當(dāng)候選評價對象特征的領(lǐng)域相關(guān)度和領(lǐng)域一致度都很大時,該候選特征就可能是該領(lǐng)域的真正特征。因此,通過對兩者的加權(quán)平均,可以定義候選評價對象特征t對領(lǐng)域Di的一個綜合評定指標(biāo):

  DW(t,Di)=α·DR(t|Di)+β·DC(t,Di)(5)

  計算所有候選特征對于領(lǐng)域Di的DW(t,Di)值,按照從大到小排序。設(shè)置閾值θ,使得DW(t,Di)的值大于θ的候選特征為所選取的評價對象特征,小于θ的候選特征將從候選特征集中去除。

2 實驗結(jié)果與分析

  2.1 實驗語料與性能評價指標(biāo)

  因中文產(chǎn)品評論觀點挖掘發(fā)展還不成熟,缺少公開的、標(biāo)準(zhǔn)的語料庫,目前研究主要采用從指定的網(wǎng)站(如英文的www.Amazon.com,中文的pinglun.IT168.com等)獲取某類產(chǎn)品的產(chǎn)品評論來構(gòu)建產(chǎn)品評論語料庫[7]。所以本文選取的是從上述網(wǎng)站上下載下來的評論數(shù)據(jù),包括手機、數(shù)碼相機、DVD機、書籍以及服飾5類產(chǎn)品各1 000條評論數(shù)據(jù)。針對每一種產(chǎn)品評論,用人工標(biāo)注的方法對評價對象特征進行識別和標(biāo)注,不考慮那些在評論中沒有出現(xiàn)或是出現(xiàn)的頻率太低的特征,那么標(biāo)注時要保證特征的支持度要大于Apriori算法中的最小支持度。

  為了評估方法的性能,本文采取了查全率(recall),查準(zhǔn)率(precision),F(xiàn)1-score來評價特征抽取的有效性。公式如下:

  678.jpg

  2.2 實驗結(jié)果

  在抽取評價對象的候選特征集階段,利用Apriori算法抽取頻繁項集時,選取的最小支持度為2%。綜合5種商品的實驗結(jié)果如表1所示,平均查全率為81.72%,平均查準(zhǔn)率為62.87%。

002.jpg

  在此實驗中,一種產(chǎn)品的評論語料作為領(lǐng)域語料,那么其他4種評論語料則是作為過濾語料。比如手機的評論數(shù)據(jù)作為領(lǐng)域語料,那么數(shù)碼相機、DVD機、書籍和服飾的評論數(shù)據(jù)將作為過濾語料。在量化特征的領(lǐng)域一致度和領(lǐng)域相關(guān)度后,對過濾的綜合評定指標(biāo)定義時,經(jīng)過試驗比較發(fā)現(xiàn),α值取0.9左右,β值取0.25左右,閾值θ取1.8。過濾后的5種商品的實驗結(jié)果如表2所示,平均查全率為77.07%,平均查準(zhǔn)率為70.89%,比未過濾前查準(zhǔn)率提高了8.02%。

003.jpg

  特征過濾的實驗結(jié)果與基于Apriori算法抽取候選特征的實驗結(jié)果以及HU M等人的英文評論挖掘結(jié)果進行比較。以F1-score值作為參考,利用3個實驗中都有的產(chǎn)品手機、數(shù)碼相機和書籍的實驗結(jié)果作比較,如表3所示。與基于Apriori算法抽取候選特征的實驗結(jié)果來看,平均F1-score值提高了3.2%。以HU M和LIU B的實驗結(jié)果來看,平均F1-score值提高了1.48。本方法提高了中文客戶評論對象的特征挖掘性能。

004.jpg

  本文通過利用Apriori算法抽取評價對象的候選特征集,結(jié)合計算領(lǐng)域一致度和領(lǐng)域相關(guān)度對候選特征進行過濾,實現(xiàn)了對中文客戶評論的對象特征挖掘。通過實驗驗證了通過結(jié)合領(lǐng)域一致度和領(lǐng)域相關(guān)度的過濾效果,特征挖掘的性能得到提高,且略優(yōu)于參考文獻[2]關(guān)于英文評論的抽取性能。

  在今后的工作中,將建立一個中文客戶評論挖掘框架,在本文的基礎(chǔ)上,針對已經(jīng)挖掘出來的評價對象特征,進一步判斷客戶評論中對于這些評價對象特征的情感傾向分布。

  參考文獻

  [1] POPESCU A M, ETZIONI O. Extracting product featuresand opinionsfrom reviews[J]. Proceedings of HLT-EMNLPVancouver, 2007:9-28.

  [2] HU M, LIU B. Mining opinion featuresin customer reviews[C]. Proceedings of the Tenth ACM SIGKDD International Conerence on Knowledge Discovery and Data Mining, ACM, 2004:168-177.

  [3] 姚天昉,聶青陽,李建超,等.一個用于漢語汽車評論的意見挖掘系統(tǒng)[C].中文信息處理前沿進展——中國中文信息學(xué)會成立二十五周年學(xué)術(shù)會議論文集.北京:中國中文信息學(xué)會,2006:260-281.

  [4]  YI J, NASUKAWA T, BUNESCUR R, et al. Sentiment analyzer: extracting sentiments about a given topic using natural language processing techniques[C]. Proceeding of the 3rd IEEE International Conference on Data Mining,Washington: IEEE Computer Society, 2003:427-434.

  [5] SOMPRASERTSRI G, LALITROJWONG P. A maximum entropy model for product feature extraction in online customer reviews[C]. Proceeding of the 3rd IEEE International Conference on Data Mining, Washington: IEEE Computer Society, 2008: 575-580.

  [6] ZHENG Y, YE L, WU G, et al. Extracting product features from chinese customer reviews[A]. Proceedings of 2008 3rd IEEE International Conference on Intelligent System and Knowledge Engineering[C]. 2008(1-2):285-290.

  [7] 伍星,何中市,黃永文.產(chǎn)品評論挖掘研究綜述[J].計算機工程與應(yīng)用,2008,44(36):37-40.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
久久蜜桃资源一区二区老牛 | 欧美激情一区二区在线 | 久久久久久久久久久久久久一区| 亚洲在线中文字幕| 这里只有视频精品| 日韩午夜视频在线观看| 99re热精品| 99综合在线| 一区二区三区视频在线| 亚洲五月婷婷| 亚洲天堂网在线观看| 亚洲午夜久久久久久久久电影网| 99精品久久久| 亚洲桃色在线一区| 亚洲欧美日韩国产一区| 亚洲欧美日韩第一区| 先锋影音一区二区三区| 欧美一区二区三区四区高清 | 久久精品国产精品亚洲综合| 久久精品国产精品亚洲综合| 久久婷婷丁香| 美女主播精品视频一二三四| 欧美高清视频在线播放| 欧美日韩国产精品专区| 欧美午夜激情在线| 国产精品欧美一区喷水 | 黄页网站一区| 亚洲激情一区二区| 亚洲卡通欧美制服中文| 亚洲视频1区| 亚洲女人小视频在线观看| 亚洲欧美激情四射在线日 | 欧美三日本三级少妇三2023| 欧美调教vk| 国产精品私人影院| 黄色亚洲精品| 亚洲久久在线| 亚洲主播在线| 亚洲国产一成人久久精品| 亚洲国产高清自拍| 99亚洲一区二区| 亚洲伊人网站| 欧美一站二站| 日韩亚洲在线| 欧美伊人久久| 免费久久久一本精品久久区| 欧美日韩精品在线播放| 国产精品欧美一区二区三区奶水| 国产在线视频欧美| 亚洲精品一区二区三区婷婷月| 亚洲一级黄色片| 亚洲高清成人| 亚洲在线观看视频| 老司机aⅴ在线精品导航| 欧美日韩欧美一区二区| 国产精品视频| 亚洲国产精品一区二区第一页| 在线视频亚洲一区| 亚洲国产aⅴ天堂久久| 中文久久乱码一区二区| 久久九九精品| 欧美三级电影网| 黄色一区二区在线| 亚洲视频精选在线| 亚洲国产日韩欧美在线动漫 | 中文久久乱码一区二区| 久久久久久久久久久一区 | 亚洲一区精品电影| 美女黄毛**国产精品啪啪| 欧美性色aⅴ视频一区日韩精品| 国产三级欧美三级日产三级99| 亚洲精品黄网在线观看| 午夜精品久久久久久久99水蜜桃| 99riav国产精品| 久久久亚洲人| 国产精品电影网站| 91久久极品少妇xxxxⅹ软件| 香蕉成人啪国产精品视频综合网| 日韩一级网站| 久久性天堂网| 国产美女诱惑一区二区| 亚洲免费大片| 亚洲国产精品免费| 欧美一区二区在线免费播放| 欧美美女bb生活片| 在线观看一区二区精品视频| 午夜久久资源| 亚洲免费视频中文字幕| 欧美激情小视频| 伊人久久亚洲美女图片| 亚洲欧美日韩在线播放| 亚洲四色影视在线观看| 欧美激情成人在线视频| 一色屋精品视频免费看| 性色av一区二区三区| 亚洲天堂男人| 欧美日本亚洲韩国国产| 在线观看欧美激情| 欧美在线观看视频一区二区三区| 午夜精品久久久久久久男人的天堂 | 经典三级久久| 欧美一级理论片| 欧美亚洲专区| 国产精品久久久久久久久久久久久| 亚洲精品久久久久| 亚洲日韩欧美一区二区在线| 美女爽到呻吟久久久久| 激情懂色av一区av二区av| 亚洲欧美影音先锋| 欧美一级大片在线免费观看| 国产精品国产三级国产aⅴ浪潮 | 一区二区三区精品视频在线观看| 日韩一级黄色大片| 欧美高清一区| 亚洲人永久免费| 日韩亚洲精品在线| 欧美精品色综合| 亚洲精品三级| 在线视频亚洲欧美| 欧美日韩精品综合| 一本色道久久综合亚洲精品按摩| 一区二区三区日韩欧美| 欧美手机在线视频| 亚洲视频一区二区在线观看 | 久久精品国产精品亚洲综合| 国产女人aaa级久久久级| 亚洲欧美一区二区三区极速播放| 欧美一区观看| 黑人巨大精品欧美一区二区| 欧美在线一二三区| 美日韩精品视频免费看| 亚洲国产精品视频一区| 9i看片成人免费高清| 欧美午夜女人视频在线| 亚洲网站在线| 欧美一区二区三区男人的天堂 | 亚洲伊人观看| 久久激情五月激情| 在线成人av网站| 99视频在线精品国自产拍免费观看 | 欧美精品在线网站| 一区二区三区|亚洲午夜| 欧美一级二级三级蜜桃| 国产真实乱偷精品视频免| 91久久久久久久久久久久久| 欧美人成在线| 亚洲视屏在线播放| 欧美一区永久视频免费观看| 韩日精品在线| 99在线精品观看| 国产精品一区二区三区观看| 久久激情久久| 欧美极品在线播放| 亚洲一区二区三区精品在线| 久久久国产精品一区二区中文 | 国产自产v一区二区三区c| 亚洲精品美女久久久久| 国产精品扒开腿做爽爽爽视频| 亚洲自拍高清| 老司机成人网| 在线午夜精品| 久久亚洲午夜电影| 99精品欧美| 鲁大师成人一区二区三区| 99在线精品视频在线观看| 久久久久久久久久久久久女国产乱 | 亚洲破处大片| 国产精品日韩欧美| 亚洲精品乱码久久久久久蜜桃91| 国产精品爱久久久久久久| 久久国产日韩| 欧美色中文字幕| 久久狠狠久久综合桃花| 欧美日韩在线观看一区二区三区| 欧美一区二区三区免费视频| 欧美精品自拍| 久久av资源网站| 国产精品福利网| 亚洲国产日韩美| 国产精品系列在线播放| 亚洲精品色婷婷福利天堂| 国产精品亚洲激情 | 亚洲午夜久久久| 一区二区视频免费在线观看| 亚洲一区二三| 亚洲国产二区| 久久精品人人做人人爽电影蜜月| 亚洲人成网在线播放| 久久精品1区| 一区二区三区日韩| 欧美激情综合五月色丁香| 久久av老司机精品网站导航| 国产精品久久国产愉拍| 亚洲免费电影在线| 黄色成人91| 欧美一区二区三区在线观看视频| 亚洲日韩欧美视频| 另类图片国产| 亚洲欧美视频在线| 国产精品福利av|