《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 設(shè)計(jì)應(yīng)用 > 改進(jìn)的TF-IDF算法在文本分類中的研究
改進(jìn)的TF-IDF算法在文本分類中的研究
信息技術(shù)與網(wǎng)絡(luò)安全
張 偉1,2,石 倩1,何 霄1,王 晨1,李禾香1,李驥然1
(1.中國(guó)石油工程技術(shù)研究院有限公司 北京石油機(jī)械有限公司,北京102206; 2.中國(guó)人民大學(xué) 信息學(xué)院,北京100872)
摘要: 企業(yè)數(shù)字化建設(shè)過(guò)程中,對(duì)大量日常經(jīng)營(yíng)活動(dòng)文本的數(shù)字化處理通常是多任務(wù)的,需要對(duì)文本數(shù)據(jù)同時(shí)完成信息抽取和文本分類任。在此應(yīng)用場(chǎng)景下,為了實(shí)現(xiàn)更加精準(zhǔn)的分類效果,提出一種改進(jìn)的TF-IDF算法,將文本信息抽取結(jié)果也作為文本重要類別區(qū)分特征。通過(guò)引入信息增益方法得到改進(jìn)的權(quán)重計(jì)算公式,進(jìn)而得到改進(jìn)的文本特征向量空間表示,再構(gòu)建文本分類模型。實(shí)驗(yàn)以石油行業(yè)中文文本為例,選取測(cè)試文本2 006條進(jìn)行文本分類對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明改進(jìn)的TF-IDF算法精確率P達(dá)到99.3%,召回率R達(dá)到98.7%,相比于傳統(tǒng)TF-IDF算法文本分類效果得到顯著提高。
中圖分類號(hào): TP391
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2021.07.012
引用格式: 張偉,石倩,何霄,等. 改進(jìn)的TF-IDF算法在文本分類中的研究[J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,40(7):72-76,83.
Research on improved TF-IDF algorithm in text classification
Zhang Wei1,2,Shi Qian1,He Xiao1,Wang Chen1,Li Hexiang1,Li Jiran1
(1.Beijing Petroleum Machinery Co.,Ltd.,China Petroleum Engineering Technology Research Institute, Beijing 102206,China; 2.School of Information,Renmin University of China,Beijing 100872,China)
Abstract: In the process of digital construction of enterprises, the digital processing of a large number of daily business activity texts of enterprises is usually multi-task, and it is necessary to complete information extraction tasks and text classification tasks for text data at the same time. In this application scenario, in order to achieve a more accurate text classification effect, this paper proposes an improved TF-IDF algorithm, which uses the text information extraction result as the distinguishing feature of important text categories, and introduces the information gain method to obtain an improved weight calculation formula. Then an improved text feature vector space representation is obtained, and then a text classification model is constructed. The experiment takes the Chinese text of the petroleum industry as an example, and selects 2 006 test texts for text classification comparison experiments. The experimental results show that the improved TF-IDF algorithm has an accuracy rate P of 99.99% and a recall rate R of 99.87%. The algorithm text classification effect has been significantly improved.
Key words : text classification;VSM;TF-IDF;petroleum;support vector machine

0 引言

TF-IDF算法結(jié)構(gòu)簡(jiǎn)單,類別區(qū)分力強(qiáng),且容易實(shí)現(xiàn),被廣泛應(yīng)用于信息檢索、文本挖掘、文本分類、信息抽取等領(lǐng)域中。但是,該算法僅考慮詞頻方面的因素,沒(méi)有考慮詞語(yǔ)出現(xiàn)的位置、詞性、樣本分布等信息,存在一定局限性。對(duì)此很多研究者都提出過(guò)改進(jìn)算法,王小林在傳統(tǒng)TF-IDF算法基礎(chǔ)上,提出利用段落標(biāo)注技術(shù),對(duì)處于不同位置的詞語(yǔ)給予不同的位置權(quán)重,并對(duì)分詞結(jié)果中詞頻較高的同詞性詞語(yǔ)進(jìn)行相似度計(jì)算,合并相似度較高的詞語(yǔ),改進(jìn)傳統(tǒng)算法中忽視特征詞位置因素和語(yǔ)義對(duì)相似度的問(wèn)題[1]。覃世安針對(duì)傳統(tǒng)TF-IDF算法在分類文本類的數(shù)量分布不均時(shí)提取特征值效果差的問(wèn)題,提出使用特征值在類間出現(xiàn)的概率比代替特征值在類間出現(xiàn)次數(shù)的改進(jìn)TF-IDF算法[2]。葉雪梅認(rèn)為傳統(tǒng)的特征詞權(quán)重TF-IDF算法未考慮到網(wǎng)絡(luò)新詞,針對(duì)特征項(xiàng)中的新詞對(duì)分類結(jié)果的影響給予不同權(quán)重值,提出基于網(wǎng)絡(luò)新詞改進(jìn)文本分類TF-IDF算法[3]。這些改進(jìn)算法都有效提高了模型性能,優(yōu)化分類結(jié)果,取得了不錯(cuò)的實(shí)驗(yàn)效果。但以往改進(jìn)算法研究主要集中在通過(guò)完善算法本身的缺陷以實(shí)現(xiàn)詞條在文本中更加準(zhǔn)確的權(quán)重賦值,忽略了其他類別區(qū)分特征因子。



本文詳細(xì)內(nèi)容請(qǐng)下載:http://m.jysgc.com/resource/share/2000003681




作者信息:

張  偉1,2,石  倩1,何  霄1,王  晨1,李禾香1,李驥然1

(1.中國(guó)石油工程技術(shù)研究院有限公司 北京石油機(jī)械有限公司,北京102206;

2.中國(guó)人民大學(xué) 信息學(xué)院,北京100872)


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
主站蜘蛛池模板: 亚洲aⅴ男人的天堂在线观看| 一级毛片特级毛片黄毛片| 国产高清在线精品二区| 日本人视频jizz页码69| 欧美性bbbwbbbw| 精品伊人久久大线蕉地址| 免费专区丝袜脚调教视频| 一个人看的毛片| 久久精品国产一区二区电影| 亚洲第一极品精品无码久久| 又粗又硬又黄又爽的免费视频| 国产成人久久久精品二区三区| 精品亚洲成a人无码成a在线观看 | 手机看片一区二区| 国产在线h视频| 视频一区精品自拍| 精品亚洲综合在线第一区| 精品久久久无码中字| 深夜的贵妇无删减版在线播放 | 日韩精品无码久久一区二区三 | 午夜视频在线在免费| 免费高清电影在线观看| 亚洲娇小性色xxxx| 久久精品国产精品亚洲蜜月| 久久亚洲免费视频| 一二三四视频在线观看韩国电视剧| 97色婷婷成人综合在线观看| 黑巨人与欧美精品一区| 精品欧美日韩一区二区三区| 浮力影院欧美三级日本三级| freexxxx性女hd性中国| www.kkbokk.com| 亚洲香蕉久久一区二区三区四区| 色综合久久久无码中文字幕波多| 男同免费videos欧美| 最近中文国语字幕在线播放 | 校花被扒开尿口折磨憋尿| 成人在线观看不卡| 在线观看麻豆精品国产不卡| 国产在线高清理伦片a电影| 人妻系列av无码专区|