《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 改進的TF-IDF算法在文本分類中的研究
改進的TF-IDF算法在文本分類中的研究
信息技術與網絡安全
張 偉1,2,石 倩1,何 霄1,王 晨1,李禾香1,李驥然1
(1.中國石油工程技術研究院有限公司 北京石油機械有限公司,北京102206; 2.中國人民大學 信息學院,北京100872)
摘要: 企業數字化建設過程中,對大量日常經營活動文本的數字化處理通常是多任務的,需要對文本數據同時完成信息抽取和文本分類任。在此應用場景下,為了實現更加精準的分類效果,提出一種改進的TF-IDF算法,將文本信息抽取結果也作為文本重要類別區分特征。通過引入信息增益方法得到改進的權重計算公式,進而得到改進的文本特征向量空間表示,再構建文本分類模型。實驗以石油行業中文文本為例,選取測試文本2 006條進行文本分類對比實驗,實驗結果表明改進的TF-IDF算法精確率P達到99.3%,召回率R達到98.7%,相比于傳統TF-IDF算法文本分類效果得到顯著提高。
中圖分類號: TP391
文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2021.07.012
引用格式: 張偉,石倩,何霄,等. 改進的TF-IDF算法在文本分類中的研究[J].信息技術與網絡安全,2021,40(7):72-76,83.
Research on improved TF-IDF algorithm in text classification
Zhang Wei1,2,Shi Qian1,He Xiao1,Wang Chen1,Li Hexiang1,Li Jiran1
(1.Beijing Petroleum Machinery Co.,Ltd.,China Petroleum Engineering Technology Research Institute, Beijing 102206,China; 2.School of Information,Renmin University of China,Beijing 100872,China)
Abstract: In the process of digital construction of enterprises, the digital processing of a large number of daily business activity texts of enterprises is usually multi-task, and it is necessary to complete information extraction tasks and text classification tasks for text data at the same time. In this application scenario, in order to achieve a more accurate text classification effect, this paper proposes an improved TF-IDF algorithm, which uses the text information extraction result as the distinguishing feature of important text categories, and introduces the information gain method to obtain an improved weight calculation formula. Then an improved text feature vector space representation is obtained, and then a text classification model is constructed. The experiment takes the Chinese text of the petroleum industry as an example, and selects 2 006 test texts for text classification comparison experiments. The experimental results show that the improved TF-IDF algorithm has an accuracy rate P of 99.99% and a recall rate R of 99.87%. The algorithm text classification effect has been significantly improved.
Key words : text classification;VSM;TF-IDF;petroleum;support vector machine

0 引言

TF-IDF算法結構簡單,類別區分力強,且容易實現,被廣泛應用于信息檢索、文本挖掘、文本分類、信息抽取等領域中。但是,該算法僅考慮詞頻方面的因素,沒有考慮詞語出現的位置、詞性、樣本分布等信息,存在一定局限性。對此很多研究者都提出過改進算法,王小林在傳統TF-IDF算法基礎上,提出利用段落標注技術,對處于不同位置的詞語給予不同的位置權重,并對分詞結果中詞頻較高的同詞性詞語進行相似度計算,合并相似度較高的詞語,改進傳統算法中忽視特征詞位置因素和語義對相似度的問題[1]。覃世安針對傳統TF-IDF算法在分類文本類的數量分布不均時提取特征值效果差的問題,提出使用特征值在類間出現的概率比代替特征值在類間出現次數的改進TF-IDF算法[2]。葉雪梅認為傳統的特征詞權重TF-IDF算法未考慮到網絡新詞,針對特征項中的新詞對分類結果的影響給予不同權重值,提出基于網絡新詞改進文本分類TF-IDF算法[3]。這些改進算法都有效提高了模型性能,優化分類結果,取得了不錯的實驗效果。但以往改進算法研究主要集中在通過完善算法本身的缺陷以實現詞條在文本中更加準確的權重賦值,忽略了其他類別區分特征因子。



本文詳細內容請下載:http://m.jysgc.com/resource/share/2000003681




作者信息:

張  偉1,2,石  倩1,何  霄1,王  晨1,李禾香1,李驥然1

(1.中國石油工程技術研究院有限公司 北京石油機械有限公司,北京102206;

2.中國人民大學 信息學院,北京100872)


此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
久久久久九九九| 国产精品二区二区三区| 亚洲午夜国产成人av电影男同| 欧美在线三级| 亚洲欧美日韩天堂| 亚洲视频一区在线观看| 日韩视频免费观看高清在线视频| 亚洲大胆美女视频| 在线观看日韩av电影| 国产一区二区黄| 国产在线欧美日韩| 国产日韩一区二区三区在线播放 | 看欧美日韩国产| 久久久久久久久综合| 久久成人免费| 久久精品国产96久久久香蕉| 欧美在线观看一区二区三区| 久久激情视频久久| 久久久久在线| 久久尤物视频| 欧美成人69av| 欧美日韩国产在线播放| 欧美视频在线观看| 欧美性久久久| 国产区精品视频| 一区二区三区在线视频免费观看| 在线观看一区视频| 亚洲国产一区二区在线| 亚洲三级视频| 亚洲四色影视在线观看| 香蕉久久夜色精品| 久久精品视频亚洲| 99热在这里有精品免费| 亚洲一级影院| 久久精彩免费视频| 嫩草影视亚洲| 欧美性做爰毛片| 国产午夜久久久久| 在线看片欧美| 一区二区三区久久久| 午夜精彩视频在线观看不卡 | 欧美一二三区精品| 亚洲国产另类 国产精品国产免费| 亚洲国产精品嫩草影院| 99国产精品国产精品久久| 亚洲视频精选| 久久国产精品色婷婷| 欧美xxx在线观看| 国产精品www994| 国产一区二区三区丝袜| 91久久国产综合久久蜜月精品| 一区二区三区日韩精品视频| 欧美一区二区啪啪| 亚洲精品乱码久久久久久久久| 亚洲无线一线二线三线区别av| 欧美一区亚洲一区| 免费一区二区三区| 国产精品久久久久av| 激情丁香综合| 日韩午夜激情| 亚洲第一精品夜夜躁人人躁| 99这里只有久久精品视频| 性欧美1819性猛交| 欧美电影在线| 国产日韩欧美一区二区三区在线观看| 亚洲福利av| 亚洲欧美日韩一区在线| 亚洲欧洲精品一区| 欧美一区二区三区四区在线 | 亚洲人成小说网站色在线| 亚洲一区二区三区777| 久久久亚洲综合| 欧美午夜精品理论片a级大开眼界 欧美午夜精品理论片a级按摩 | 韩国三级电影一区二区| 99在线热播精品免费99热| 久久精品免费播放| 亚洲欧美一区二区在线观看| 欧美77777| 国产老女人精品毛片久久| 亚洲精品国产精品国自产在线| 亚洲欧美中文另类| 一区二区三区精品在线| 美日韩精品视频免费看| 国产欧美亚洲视频| 宅男在线国产精品| 日韩一区二区福利| 久久网站免费| 国产欧美欧美| 亚洲香蕉在线观看| 夜夜嗨av一区二区三区| 噜噜噜噜噜久久久久久91 | 亚洲精品少妇| 最新亚洲电影| 久久久久久一区| 国产精品区一区二区三| 亚洲美女视频| 亚洲精品在线二区| 麻豆精品91| 激情欧美亚洲| 欧美中文字幕视频| 亚洲欧美卡通另类91av| 欧美日韩色一区| 亚洲精品系列| 亚洲精品视频在线看| 奶水喷射视频一区| 红桃av永久久久| 午夜精品久久一牛影视| 亚洲男女毛片无遮挡| 欧美三级韩国三级日本三斤| 亚洲三级观看| 一本色道久久综合狠狠躁篇的优点 | 欧美中文字幕视频| 久久精品国产99国产精品澳门| 国产精品羞羞答答| 中文日韩在线| 亚洲欧美韩国| 国产精品免费一区豆花| 亚洲一区在线看| 亚洲欧美视频一区| 国产精品国产自产拍高清av王其| 99re8这里有精品热视频免费| 一本久久青青| 欧美日韩一区二区视频在线| 亚洲精品在线视频观看| 一区二区三区导航| 欧美日韩国产色站一区二区三区| 亚洲激情第一页| 一区二区三区四区蜜桃| 欧美日韩亚洲网| 亚洲视频精品在线| 欧美亚洲一区三区| 国产日韩综合| 欧美在线观看一区二区| 快she精品国产999| 亚洲国产中文字幕在线观看| 一本大道久久a久久精二百| 欧美日韩中文| 亚洲影视在线| 久久精品一区中文字幕| 今天的高清视频免费播放成人| 亚洲国产导航| 欧美日本久久| 亚洲影院在线| 久久久久88色偷偷免费| 在线高清一区| 在线一区二区三区做爰视频网站 | 亚洲综合国产| 久久亚洲春色中文字幕久久久| 一区二区视频免费完整版观看| 亚洲久久在线| 欧美三级在线播放| 亚洲欧美日韩精品一区二区 | 国产精品婷婷午夜在线观看| 欧美一区网站| 欧美激情小视频| 9国产精品视频| 久久国产精彩视频| 在线观看日韩av电影| 正在播放亚洲一区| 国产精品资源在线观看| 亚洲国产精品一区二区久| 欧美日韩在线一区二区| 午夜一区二区三区不卡视频| 你懂的视频欧美| 亚洲网站在线| 免费观看欧美在线视频的网站| 99精品国产在热久久婷婷| 欧美在线一区二区三区| 最新国产成人在线观看| 欧美一区二区高清| 亚洲国产人成综合网站| 午夜精品国产| 亚洲精美视频| 久久精品国产99精品国产亚洲性色 | 久久九九国产精品| 日韩一级二级三级| 久久久久久久91| 亚洲麻豆av| 久久久在线视频| 在线亚洲一区二区| 美女主播一区| 亚洲欧美视频一区| 欧美欧美天天天天操| 欧美一区精品| 国产精品sss| 亚洲欧洲精品一区二区| 国产精品一区二区在线| 亚洲精一区二区三区| 国产婷婷成人久久av免费高清| 99视频超级精品| 激情综合五月天| 午夜免费电影一区在线观看| 亚洲高清影视| 久久精品国产69国产精品亚洲| 日韩午夜中文字幕| 欧美mv日韩mv亚洲| 性伦欧美刺激片在线观看| 欧美日韩视频不卡| 亚洲精品免费一区二区三区| 国产一区二区三区精品欧美日韩一区二区三区 |