《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 設(shè)計應(yīng)用 > 針對在線教育情感分析的數(shù)據(jù)擴充研究
針對在線教育情感分析的數(shù)據(jù)擴充研究
網(wǎng)絡(luò)安全與數(shù)據(jù)治理 2022年 第1期
黃偉強1,劉 海2,梁韜文2,楊海華2
(1.華南師范大學(xué) 網(wǎng)絡(luò)中心,廣東 廣州510631;2.華南師范大學(xué) 計算機學(xué)院,廣東 廣州510631)
摘要: 在互聯(lián)網(wǎng)上大量主觀性的評論具有豐富的研究價值,可以通過對評論的分析獲取評論的情感極性。在對大量評論進行情感分析時,存在時間和人力消耗過多等問題,針對該問題,提出了基于聚類分析的文本數(shù)據(jù)擴充方法:在對少量關(guān)鍵數(shù)據(jù)進行標(biāo)注的基礎(chǔ)上,通過聚類分析標(biāo)注大量數(shù)據(jù),以減少情感分析在實際應(yīng)用中的成本。以在線教育平臺的評論為例,對目前多個主流在線教育平臺上爬取的共569 970條中文評論數(shù)據(jù)進行少量標(biāo)注,然后使用該方法進行數(shù)據(jù)擴充,最后基于目前多個主流機器學(xué)習(xí)模型和卷積神經(jīng)網(wǎng)絡(luò)模型進行情感分析訓(xùn)練。研究結(jié)果表明,數(shù)據(jù)處理經(jīng)過聚類后取得較好的數(shù)據(jù)擴充效果,其中采用卷積神經(jīng)網(wǎng)絡(luò)模型進行的情感分析,準(zhǔn)確度可以達到96.5%。
中圖分類號: TP391
文獻標(biāo)識碼: A
DOI: 10.20044/j.csdg.2097-1788.2022.01.015
引用格式: 黃偉強,劉海,梁韜文,等. 針對在線教育情感分析的數(shù)據(jù)擴充研究[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2022,41(1):93-100.
A data augmentation method for online education sentiment analysis
Huang Weiqiang1,Liu Hai2,Liang Taowen2,Yang Haihua2
(1.Network Center,South China Normal University,Guangzhou 510631,China; 2.School of Computer Science,South China Normal University,Guangzhou 510631,China)
Abstract: A large number of subjective comments have rich research value on the Internet. The sentiment polarity of the comments can be obtained through the sentiment analysis of the text. However, there are many problems such as excessive time and human resource consumption in sentiment analysis of massive text comments. In response to the above problems, a method of augmenting data based on cluster analysis is proposed to reduce the cost of sentiment analysis in practical applications. The method can label a large amount of data based on a small amount of key data. Taking reviews on online education platforms as an example, in this paper, a small number of data are labelled on a total of 569 970 Chinese comments crawled on many mainstream online education platforms and then augmented using the method mentioned in this paper,four popular machine learning models and the CNN(Convolutional Neural Network) model are used in the sentiment analysis. The experimental results show that the data processing achieves better data expansion effect after clustering,and the Chinese sentiment analysis model based on the convolutional neural network has an accuracy of 96.5%.
Key words : text data augmentation;sentiment analysis;natural language processing;cluster analysis

0 引言

隨著信息技術(shù)的飛速發(fā)展,在線教育逐漸興起,越來越多的人在在線教育課程中留下了有價值的評論,通過對這些評論進行情感分析可以達到多方面的目的,如分析學(xué)生對課程的滿意度、調(diào)查老師授課水平、挖掘課程質(zhì)量等。 

情感分析(Sentiment Analysis),又稱為情感傾向性分析[1],目的是找出文本中情感的正負性,如正面或負面、積極或消極,并且把這種正負性數(shù)值化,以百分比或者正負值的方式表現(xiàn)出來。情感分析的研究方法大致可以分為兩種:一是基于情感詞典的情感分析[2],主要通過建立情感詞典或領(lǐng)域詞典及通過文本中帶有極性的情感詞進行計算來獲取文本的極性,由于依賴于情感詞典,存在覆蓋率不足等缺點;二是基于機器學(xué)習(xí)的情感分析,包括監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)三種方法,其中與監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相比,半監(jiān)督學(xué)習(xí)通過少量標(biāo)注數(shù)據(jù)和大量無標(biāo)注數(shù)據(jù)進行識別,既不用對所有的數(shù)據(jù)進行標(biāo)注,也不依賴先驗經(jīng)驗,有較好的實用性,從而被許多學(xué)者應(yīng)用在情感分析問題上,如陳珂等[3]利用基于分類器集成的self-training方法進行情感分析研究,使用少量標(biāo)注樣本和大量未標(biāo)注樣本來進行情感分析訓(xùn)練,準(zhǔn)確率達86%。

數(shù)據(jù)擴充[4]是一種結(jié)合機器學(xué)習(xí)使用的方法,在訓(xùn)練樣本不足的情況下,可使模型訓(xùn)練更好地擬合,通過與半監(jiān)督的方法相結(jié)合,可達到標(biāo)注少量數(shù)據(jù)以擴充至大量訓(xùn)練數(shù)據(jù)的效果。數(shù)據(jù)擴充方法目前已被用于圖像、交通、醫(yī)療等領(lǐng)域[5-7],目前主流的數(shù)據(jù)擴充方法有圖像翻轉(zhuǎn)、隨機噪聲、標(biāo)簽傳播等[8]。

情感分析目前已被應(yīng)用于如電影評論、書籍評論、微博短評等多個領(lǐng)域,但在在線教育課程評論領(lǐng)域的應(yīng)用還較缺乏,把情感分析應(yīng)用在在線教育課程評論上存在著各種挑戰(zhàn),如評論數(shù)據(jù)的獲取、評論數(shù)據(jù)的標(biāo)注等。為了解決以上問題,本文借鑒半監(jiān)督學(xué)習(xí)的方法,提出基于聚類分析的文本數(shù)據(jù)擴充方法:對少量關(guān)鍵數(shù)據(jù)進行標(biāo)注,并通過聚類分析獲得大量已標(biāo)注數(shù)據(jù)。在目前主流在線教育平臺爬取的569 970條課程評論中選取1 000條關(guān)鍵數(shù)據(jù)進行標(biāo)注并使用本文數(shù)據(jù)擴充方法擴充至10萬條標(biāo)注數(shù)據(jù),分別利用SVM[9]、RandomForest[10]、AdaBoost[11]、GradientBoost[12]和CNN模型對標(biāo)注數(shù)據(jù)進行訓(xùn)練,實驗表明,與目前主流的LabelSpreading算法相比,本文的數(shù)據(jù)擴充方法均有準(zhǔn)確率上的優(yōu)勢。




本文詳細內(nèi)容請下載:http://m.jysgc.com/resource/share/2000004618




作者信息:

黃偉強1,劉  海2,梁韜文2,楊海華2

(1.華南師范大學(xué) 網(wǎng)絡(luò)中心,廣東 廣州510631;2.華南師范大學(xué) 計算機學(xué)院,廣東 廣州510631)


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
主站蜘蛛池模板: 中国xxx69视频| 亚洲国产成人久久99精品| 色哟哟网站在线观看| 国产福利在线导航| 97久久精品人妻人人搡人人玩| 巨大一下一寸挤进校花| 中文字幕无码av激情不卡 | 国产午夜成人AV在线播放| 巨胸喷奶水视频www网快速| 国产高清在线精品一区| aⅴ在线免费观看| 女人18毛片a级| 另类国产ts人妖系列| 香焦视频在线观看黄| 国产成人高清在线播放| 69xxxx日本| 国产精品亚洲天堂| 4455永久在线观免费看| 国自产拍91大神精品| WWW国产成人免费观看视频| 女女互揉吃奶揉到高潮视频 | 欧美精品黑人粗大视频| 亚洲视频手机在线| 男人j桶进女人p无遮挡在线观看 | 亚洲网红精品大秀在线观看| 粉嫩小仙女脱内衣喷水自慰 | 337p日本欧洲亚洲大胆裸体艺术| 国内亚州视频在线观看| 99热99操99射| 在线观看精品一区| 99久久无色码中文字幕人妻| 夜色福利久久久久久777777| ljr绿巨人地址| 天天躁日日躁狠狠躁av中文| √天堂中文在线最新版8下载| 极品丝袜老师h系列全文 | 青梅竹马嗯哦ch| 国产亚洲美女精品久久久久| 青青青在线观看视频免费播放| 国产在线步兵一区二区三区| 麻豆人妻少妇精品无码专区|