《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 設(shè)計(jì)應(yīng)用 > 改進(jìn)的TF-IDF算法在文本分類中的研究
改進(jìn)的TF-IDF算法在文本分類中的研究
信息技術(shù)與網(wǎng)絡(luò)安全
張 偉1,2,石 倩1,何 霄1,王 晨1,李禾香1,李驥然1
(1.中國(guó)石油工程技術(shù)研究院有限公司 北京石油機(jī)械有限公司,北京102206; 2.中國(guó)人民大學(xué) 信息學(xué)院,北京100872)
摘要: 企業(yè)數(shù)字化建設(shè)過程中,對(duì)大量日常經(jīng)營(yíng)活動(dòng)文本的數(shù)字化處理通常是多任務(wù)的,需要對(duì)文本數(shù)據(jù)同時(shí)完成信息抽取和文本分類任。在此應(yīng)用場(chǎng)景下,為了實(shí)現(xiàn)更加精準(zhǔn)的分類效果,提出一種改進(jìn)的TF-IDF算法,將文本信息抽取結(jié)果也作為文本重要類別區(qū)分特征。通過引入信息增益方法得到改進(jìn)的權(quán)重計(jì)算公式,進(jìn)而得到改進(jìn)的文本特征向量空間表示,再構(gòu)建文本分類模型。實(shí)驗(yàn)以石油行業(yè)中文文本為例,選取測(cè)試文本2 006條進(jìn)行文本分類對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明改進(jìn)的TF-IDF算法精確率P達(dá)到99.3%,召回率R達(dá)到98.7%,相比于傳統(tǒng)TF-IDF算法文本分類效果得到顯著提高。
中圖分類號(hào): TP391
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2021.07.012
引用格式: 張偉,石倩,何霄,等. 改進(jìn)的TF-IDF算法在文本分類中的研究[J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,40(7):72-76,83.
Research on improved TF-IDF algorithm in text classification
Zhang Wei1,2,Shi Qian1,He Xiao1,Wang Chen1,Li Hexiang1,Li Jiran1
(1.Beijing Petroleum Machinery Co.,Ltd.,China Petroleum Engineering Technology Research Institute, Beijing 102206,China; 2.School of Information,Renmin University of China,Beijing 100872,China)
Abstract: In the process of digital construction of enterprises, the digital processing of a large number of daily business activity texts of enterprises is usually multi-task, and it is necessary to complete information extraction tasks and text classification tasks for text data at the same time. In this application scenario, in order to achieve a more accurate text classification effect, this paper proposes an improved TF-IDF algorithm, which uses the text information extraction result as the distinguishing feature of important text categories, and introduces the information gain method to obtain an improved weight calculation formula. Then an improved text feature vector space representation is obtained, and then a text classification model is constructed. The experiment takes the Chinese text of the petroleum industry as an example, and selects 2 006 test texts for text classification comparison experiments. The experimental results show that the improved TF-IDF algorithm has an accuracy rate P of 99.99% and a recall rate R of 99.87%. The algorithm text classification effect has been significantly improved.
Key words : text classification;VSM;TF-IDF;petroleum;support vector machine

0 引言

TF-IDF算法結(jié)構(gòu)簡(jiǎn)單,類別區(qū)分力強(qiáng),且容易實(shí)現(xiàn),被廣泛應(yīng)用于信息檢索、文本挖掘、文本分類、信息抽取等領(lǐng)域中。但是,該算法僅考慮詞頻方面的因素,沒有考慮詞語(yǔ)出現(xiàn)的位置、詞性、樣本分布等信息,存在一定局限性。對(duì)此很多研究者都提出過改進(jìn)算法,王小林在傳統(tǒng)TF-IDF算法基礎(chǔ)上,提出利用段落標(biāo)注技術(shù),對(duì)處于不同位置的詞語(yǔ)給予不同的位置權(quán)重,并對(duì)分詞結(jié)果中詞頻較高的同詞性詞語(yǔ)進(jìn)行相似度計(jì)算,合并相似度較高的詞語(yǔ),改進(jìn)傳統(tǒng)算法中忽視特征詞位置因素和語(yǔ)義對(duì)相似度的問題[1]。覃世安針對(duì)傳統(tǒng)TF-IDF算法在分類文本類的數(shù)量分布不均時(shí)提取特征值效果差的問題,提出使用特征值在類間出現(xiàn)的概率比代替特征值在類間出現(xiàn)次數(shù)的改進(jìn)TF-IDF算法[2]。葉雪梅認(rèn)為傳統(tǒng)的特征詞權(quán)重TF-IDF算法未考慮到網(wǎng)絡(luò)新詞,針對(duì)特征項(xiàng)中的新詞對(duì)分類結(jié)果的影響給予不同權(quán)重值,提出基于網(wǎng)絡(luò)新詞改進(jìn)文本分類TF-IDF算法[3]。這些改進(jìn)算法都有效提高了模型性能,優(yōu)化分類結(jié)果,取得了不錯(cuò)的實(shí)驗(yàn)效果。但以往改進(jìn)算法研究主要集中在通過完善算法本身的缺陷以實(shí)現(xiàn)詞條在文本中更加準(zhǔn)確的權(quán)重賦值,忽略了其他類別區(qū)分特征因子。



本文詳細(xì)內(nèi)容請(qǐng)下載:http://m.jysgc.com/resource/share/2000003681




作者信息:

張  偉1,2,石  倩1,何  霄1,王  晨1,李禾香1,李驥然1

(1.中國(guó)石油工程技術(shù)研究院有限公司 北京石油機(jī)械有限公司,北京102206;

2.中國(guó)人民大學(xué) 信息學(xué)院,北京100872)


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
亚洲天堂偷拍| 亚洲人午夜精品| 激情五月婷婷综合| 国产精品久久久久99| 欧美电影在线观看| 久久久久看片| 欧美一区二区三区四区夜夜大片| 夜夜精品视频一区二区| 亚洲国产毛片完整版| 亚洲欧美高清| 日韩视频在线播放| 亚洲国产婷婷| 在线精品视频一区二区| 国产精品夜色7777狼人| 欧美黑人一区二区三区| 欧美日韩美女在线| 欧美jizzhd精品欧美巨大免费| 欧美亚洲综合网| 亚洲深夜福利视频| 艳妇臀荡乳欲伦亚洲一区| 亚洲黄色视屏| 亚洲国产欧美日韩另类综合| 久久经典综合| 久久精品国产99国产精品| 欧美亚洲在线观看| 99精品视频免费在线观看| 国产乱人伦精品一区二区| 欧美午夜剧场| 欧美午夜精品久久久久久孕妇| 欧美巨乳在线观看| 麻豆国产精品777777在线| 久久亚洲图片| 麻豆精品在线观看| 久久夜精品va视频免费观看| 久久久国产一区二区| 久久精品国产综合| 欧美在线短视频| 亚洲淫性视频| 亚洲制服av| 亚洲免费一区二区| 亚洲欧美激情一区二区| 99国产精品自拍| 夜夜嗨av一区二区三区网页| 一区二区三区视频在线观看| 中日韩美女免费视频网址在线观看 | 亚洲一区视频在线| 一本大道久久a久久综合婷婷| 99国产欧美久久久精品| 亚洲一级二级| 亚洲特色特黄| 性亚洲最疯狂xxxx高清| 久久av在线| 久久综合一区二区三区| 欧美国产另类| 欧美日韩国产123| 国产精品美女久久久久久免费| 国产精品丝袜白浆摸在线| 亚洲精品欧洲精品| 一区二区三区免费看| 亚洲无人区一区| 亚洲午夜电影网| 99亚洲视频| 亚洲日本乱码在线观看| 欧美亚洲一区在线| 最近中文字幕mv在线一区二区三区四区| 亚洲精品欧美在线| 午夜久久资源| 亚洲精品一区在线观看| 亚洲亚洲精品三区日韩精品在线视频 | 亚洲成人影音| 日韩亚洲成人av在线| 亚洲精品视频免费在线观看| 亚洲激情六月丁香| 中文亚洲欧美| 久久国产精品亚洲va麻豆| 亚洲美女av网站| 夜夜嗨av一区二区三区中文字幕 | 亚洲国产精品久久| 亚洲午夜在线视频| 久久久水蜜桃av免费网站| 欧美护士18xxxxhd| 国产精品一区久久| 亚洲国产99精品国自产| 亚洲视频综合| 久久国产欧美精品| 亚洲特色特黄| 羞羞色国产精品| 久久激情五月婷婷| 欧美日韩成人综合| 国产一区二区三区高清| 亚洲免费成人| 亚洲第一黄网| 亚洲综合99| 欧美国产第一页| 国产欧美一区二区三区视频| 亚洲日本理论电影| 欧美综合激情网| 亚洲东热激情| 午夜视频精品| 欧美成人一品| 国产亚洲网站| 亚洲午夜一区二区三区| 亚洲国产欧美日韩精品| 欧美一区中文字幕| 久久久999成人| 国产精品国产三级国产aⅴ入口| 在线免费观看日本一区| 亚洲欧美一区二区原创| 一区二区黄色| 免费av成人在线| 国产精品麻豆成人av电影艾秋| 欧美a一区二区| 国产一区二区三区免费不卡| 一本一本久久a久久精品综合妖精 一本一本久久a久久精品综合麻豆 | 亚洲精品久久视频| 老司机亚洲精品| 国产精品美女久久| 亚洲美女av黄| 亚洲区一区二| 久久蜜臀精品av| 国产精品无码永久免费888| 亚洲毛片在线| 亚洲精品123区| 久久久久久久999| 国产精品mv在线观看| 亚洲看片免费| 亚洲美洲欧洲综合国产一区| 免费高清在线一区| 黄色成人在线| 欧美有码在线视频| 久久成人国产| 国产美女精品免费电影| 中日韩美女免费视频网站在线观看| 亚洲美女淫视频| 欧美激情视频免费观看| 亚洲国产老妈| 91久久国产综合久久| 亚洲欧美日韩精品综合在线观看| 欧美精品1区2区| 极品尤物久久久av免费看| 欧美一区二区精品| 欧美伊人久久大香线蕉综合69| 国产精品国产精品国产专区不蜜| 99精品热6080yy久久| 亚洲深夜福利网站| 欧美性感一类影片在线播放| 一区二区三区高清视频在线观看| 99热精品在线| 欧美黄色免费| 亚洲开发第一视频在线播放| 亚洲高清在线观看| 麻豆国产精品777777在线| 亚洲国产另类久久精品| 在线亚洲一区二区| 国产精品久久久一区二区三区| 亚洲欧美日本精品| 久久婷婷成人综合色| 亚洲国产另类久久久精品极度| 一区二区三区鲁丝不卡| 国产精品久久一级| 久久精品动漫| 欧美理论电影网| 亚洲欧美日韩精品久久| 玖玖玖免费嫩草在线影院一区| 亚洲欧洲精品成人久久奇米网| 亚洲专区一区| 国内综合精品午夜久久资源| 亚洲麻豆av| 国产精品一区二区三区四区| 亚洲人成绝费网站色www| 国产精品第一页第二页第三页| 午夜日韩激情| 欧美黄色aaaa| 亚洲欧美日韩另类| 欧美1区2区3区| 亚洲午夜精品久久久久久浪潮 | 麻豆精品在线视频| 一本色道88久久加勒比精品| 久久久综合网站| 日韩视频第一页| 久久精品人人做人人爽电影蜜月| 亚洲国产视频a| 欧美在线视频导航| 亚洲精品在线一区二区| 欧美在线视频日韩| 亚洲精品一区二区三区四区高清 | 欧美精品粉嫩高潮一区二区| 午夜精品电影| 欧美日韩国产三级| 久久激情五月丁香伊人| 国产精品女主播| 亚洲人成小说网站色在线| 国产精品夜夜夜一区二区三区尤| 亚洲人成在线观看网站高清| 国产精品专区h在线观看| 日韩天堂av| 精品999在线播放| 欧美专区中文字幕| 中文久久精品| 欧美激情视频网站|