《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 一種面向科技項目文本的相似度度量方法
一種面向科技項目文本的相似度度量方法
2020年電子技術應用第5期
趙曉平1,馬 文1,劉雪萍2,陳 達2
1. 云南電網有限責任公司 信息中心,云南 昆明 650011;2. 云南云電同方科技有限公司,云南 昆明 650220
摘要: 現有的文本相似度度量方法主要采用TF-IDF方法,把文本建模為詞頻向量,但未考慮文本的結構特征。現將文本的結構特征和TF-IDF方法進行融合,提出了一種面向科技項目文本的相似度度量方法。該方法首先對文本進行預處理,其次根據文本的結構特征提取模塊文本,然后使用TF-IDF方法提取每個模塊文本的TOP-N關鍵詞, 作為模塊文本的特征向量表示,最后使用余弦聚類計算文本的相似度。實驗結果表明,在電力行業的科技項目文檔數據集上,所提方法優于TF-IDF方法。
中圖分類號: TP311
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.191420
中文引用格式: 趙曉平,馬文,劉雪萍,等. 一種面向科技項目文本的相似度度量方法[J].電子技術應用,2020,46(5):31-34,39.
英文引用格式: Zhao Xiaoping,Ma Wen,Liu Xueping,et al. A similarity measurement method for science and technology project text[J]. Application of Electronic Technique,2020,46(5):31-34,39.
A similarity measurement method for science and technology project text
Zhao Xiaoping1,Ma Wen1,Liu Xueping2,Chen Da2
1.Information Center,Yunnan Power Grid Co.,Ltd.,Kunming 650011,China; 2.Yunnan Yundian Tongfang Technology Co.,Ltd.,Kunming 650220,China
Abstract: Existing text similarity measurements often use the TF-IDF method to model texts as term frequency vectors without considering the structural features of texts. This paper combines the structural features of texts with the TF-IDF method and proposes a text similarity measurement for science and technology project texts. This approach firstly pre-processes a text and extracts module texts according to its structural features. After applying the TF-IDF method to these extracted module texts, this method extracts the top keywords of each module text, obtains its feature vector representation, and finally uses cosine formula to calculate the similarity of two texts. By comparing with the TF-IDF method, experimental results show that the proposed method can promote the evaluation metrics of F-measure.
Key words : text similarity;TF-IDF;text clustering;natural language process

0 引言

    文本相似度度量是指將文本看成一組詞的集合體,分析每個詞在文本中出現的次數以及在整個文本集合中出現次數,進而利用這些詞頻信息將文本建模為一個向量,并利用向量間的余弦距離等計算文本之間的相似度[1-2]。

    文本相似度度量被廣泛應用于許多領域,例如:信息檢索領域[3-4]、文本分類[5-8]、文本摘要的自動生成[9-10]、文本的查重檢測[11-12]。本文關注的是在電力行業的科技項目查重中應用文本相似度度量。

    現有的TF-IDF[13-15]方法主要將文本建模為詞頻向量,再使用余弦相似度來計算兩個文本間的相似度。但是對于多數文本而言,這種采用詞頻向量模型的方法需要將文本表示為詞項數目與文本數目大致相當的矩陣,矩陣中的行列向量都有著非常高的維度并且是極度稀疏的,從而最終導致非常低效的計算[1,16]。此外,這種方法也忽略了文本的的結構特征。

    針對上述問題,本文提出一種既考慮了文本的結構特征,又能有效降低文本表示模型維度的文本相似度度量方法。給定兩個文本,通過文本所提方法能夠高效、準確地計算出兩者間的相似度,為電力行業科技項目的查重提供有效支撐。



論文詳細內容請下載http://m.jysgc.com/resource/share/2000002786




作者信息:

趙曉平1,馬  文1,劉雪萍2,陳  達2

(1. 云南電網有限責任公司 信息中心,云南 昆明 650011;2. 云南云電同方科技有限公司,云南 昆明 650220)

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
国产精品美女久久久浪潮软件| 在线观看91精品国产麻豆| 久久久www免费人成黑人精品| 亚洲在线观看免费| 中文精品视频| 一区二区三区日韩欧美精品| 亚洲美女诱惑| 亚洲精品中文字幕在线观看| 亚洲精品国产欧美| 亚洲全黄一级网站| 91久久在线播放| 亚洲黄色免费网站| 亚洲人成网站在线播| 亚洲国内在线| 亚洲人成小说网站色在线| 91久久精品国产| 亚洲美女福利视频网站| 亚洲另类视频| 一区二区三区免费看| 亚洲视频在线观看免费| 亚洲一品av免费观看| 亚洲一区二区三区在线观看视频 | 亚洲国产天堂久久国产91| 亚洲高清资源| 亚洲三级性片| 一区二区三区欧美日韩| 亚洲一区二区三区午夜| 欧美一区二区三区四区在线观看| 欧美在线综合视频| 久久免费精品日本久久中文字幕| 久久综合导航| 欧美成人dvd在线视频| 欧美欧美午夜aⅴ在线观看| 欧美四级在线观看| 国产农村妇女毛片精品久久莱园子| 国产亚洲一本大道中文在线| 韩日精品中文字幕| 91久久综合| 亚洲一区二区三区四区在线观看 | 一区二区毛片| 亚洲欧美国产一区二区三区| 欧美一区二区视频在线观看| 欧美中文在线免费| 亚洲日本视频| 亚洲欧美日韩在线高清直播| 久久久久久久综合| 欧美成人视屏| 欧美小视频在线| 国产亚洲一级高清| 亚洲欧洲中文日韩久久av乱码| 国产精品99久久久久久久女警 | 亚洲高清不卡| 一本一本久久a久久精品牛牛影视| 亚洲欧美日韩精品久久亚洲区 | 一区二区三区高清在线| 午夜一级久久| 欧美电影免费观看高清| 欧美午夜精品一区| 国内精品久久久久久久影视蜜臀 | 欧美jizzhd精品欧美巨大免费| 欧美日韩视频一区二区三区| 国产日产欧产精品推荐色 | 久久天天狠狠| 欧美日韩一区二区免费在线观看 | 欧美国产日产韩国视频| 国产精品免费区二区三区观看| 伊人久久综合97精品| 亚洲丝袜av一区| 91久久久亚洲精品| 欧美怡红院视频一区二区三区| 欧美国产日韩a欧美在线观看| 国产精品一区二区三区四区五区 | 欧美四级电影网站| 狠狠色狠狠色综合日日小说| 一本色道久久88精品综合| 亚洲国产精品123| 羞羞色国产精品| 欧美久久久久久| 国内久久视频| 亚洲午夜激情| 亚洲精品中文字幕在线观看| 久久成人精品视频| 欧美日韩亚洲不卡| 黄色一区二区三区四区| 亚洲综合日韩中文字幕v在线| 日韩视频精品| 久久亚洲影音av资源网| 国产精品嫩草99av在线| 最新国产乱人伦偷精品免费网站| 欧美制服第一页| 午夜伦欧美伦电影理论片| 欧美女主播在线| 亚洲第一天堂无码专区| 亚欧成人在线| 亚洲在线1234| 欧美日韩精品在线| 亚洲黄色在线看| 久久精品视频在线播放| 欧美一区二区三区四区高清| 欧美性大战久久久久| 亚洲免费高清| 亚洲另类自拍| 欧美国产另类| 亚洲国产另类 国产精品国产免费| 久久高清免费观看| 欧美在线你懂的| 国产精品专区h在线观看| 中文亚洲欧美| 亚洲欧美激情精品一区二区| 欧美日韩视频一区二区三区| 亚洲欧洲在线播放| 亚洲毛片在线看| 欧美高清视频www夜色资源网| 狠狠v欧美v日韩v亚洲ⅴ| 欧美一级大片在线观看| 欧美一区二区黄色| 国产精品一区二区三区免费观看| 亚洲天堂激情| 亚洲欧美激情四射在线日 | 嫩草国产精品入口| 在线播放一区| 亚洲精品国产视频| 欧美大片在线观看一区| 亚洲高清二区| 亚洲激情视频| 欧美电影免费观看高清| 最新日韩在线| 一区二区三区不卡视频在线观看 | 国产精品嫩草影院av蜜臀| 亚洲一区区二区| 欧美一区二区三区免费在线看| 国产欧美一区二区三区久久人妖 | 亚洲精品看片| 欧美精品久久久久久久久老牛影院 | 伊人激情综合| 91久久黄色| 欧美日韩国产综合久久| 日韩视频在线一区二区三区| 亚洲一区二区免费| 国产精品日韩一区二区| 欧美亚洲视频| 久久综合图片| 日韩一二三区视频| 亚洲欧美在线网| 国产自产在线视频一区| 亚洲国产乱码最新视频| 欧美激情aⅴ一区二区三区| 99综合视频| 欧美一区二区三区另类| 狠狠色狠狠色综合| 日韩视频在线观看免费| 国产精品高精视频免费| 欧美在线视频播放| 女人香蕉久久**毛片精品| aa亚洲婷婷| 欧美有码视频| 亚洲黄色av一区| 亚洲欧美激情一区| 国语自产精品视频在线看| 99ri日韩精品视频| 国产精品久久久久久久久婷婷 | 亚洲一区二区三区777| 久久久精品国产99久久精品芒果| 亚洲第一天堂无码专区| 亚洲尤物在线视频观看| 国模私拍一区二区三区| 99这里只有精品| 国产精品久久久久一区二区| 亚洲二区三区四区| 欧美日韩亚洲网| 性亚洲最疯狂xxxx高清| 欧美激情麻豆| 欧美一区二区三区婷婷月色 | 国产精品高潮呻吟久久av黑人| 欧美一区二区视频97| 欧美人妖在线观看| 亚洲欧美中文另类| 欧美激情一区二区三区高清视频| 亚洲影院高清在线| 欧美高清在线视频| 午夜亚洲伦理| 欧美日本在线看| 欧美中文字幕视频在线观看| 欧美日韩精品中文字幕| 亚洲大片在线| 国产精品日本一区二区| 亚洲精品欧美| 国产三区二区一区久久| 一区二区三区精品在线| 一区二区在线观看视频在线观看 | 欧美区在线观看| 欧美在线播放高清精品| 欧美日韩国产页| 亚洲国产精品久久久久秋霞蜜臀 | 亚洲小视频在线观看| 伊人久久大香线蕉av超碰演员| 亚洲欧美日韩网| 日韩视频一区二区三区| 久久综合九色九九| 性欧美videos另类喷潮|