《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 一種結合TF-IDF和Simhash的科技項目文本相似性度量方法
一種結合TF-IDF和Simhash的科技項目文本相似性度量方法
電子技術應用
孫北寧1,2,呂維新3,曾俊4,肖衡4
(1.云南電網有限責任公司 科數部,云南 昆明 650011;2.西南林業大學 大數據與智能工程學院,云南 昆明 650224; 3.云南電網有限責任公司 昆明供電局,云南 昆明 650011;4.云南云電同方科技有限公司,云南 昆明 650214)
摘要: 為了提高科技項目文本相似性度量的準確性和性能,將TF-IDF和Simhash相結合,提出了一種新的科技項目文本相似性度量方法。首先,該方法對科技項目文本進行預處理得到詞項集合,再使用TF-IDF計算詞項集合中每個詞項的權重值,并選取具有較高權重值的重要詞項;其次,使用Simhash把重要詞項映射為固定長度的二進制串,并求和得到文本的Simhash簽名;最后,使用漢明距離計算兩個Simhash簽名間的相似性。實驗結果表明,所提方法在查準率、召回率和F度量值方面優于傳統的Simhash算法和TF-IDF方法。
中圖分類號:TP311
文獻標志碼:A
DOI: 10.16157/j.issn.0258-7998.223379
中文引用格式: 孫北寧,呂維新,曾俊,等. 一種結合TF-IDF和Simhash的科技項目文本相似性度量方法[J]. 電子技術應用,2023,49(6):89-93.
英文引用格式: Sun Beining,Lv Weixin,Zeng Jun,et al. An approach for text similarity measurement of science and technology projects combing TF-IDF and Simhash[J]. Application of Electronic Technique,2023,49(6):89-93.
An approach for text similarity measurement of science and technology projects combing TF-IDF and Simhash
Sun Beining1,2,Lv Weixin3,Zeng Jun4,Xiao Heng4
(1.Department of Science Technology and Data, Yunnan Power Grid Co., Ltd., Kunming 650011, China; 2.School of Big Data and Intelligent Engineering, Southwest Forestry University, Kunming 650224, China; 3.Kunming Power Supply Bureau, Yunnan Power Grid Co., Ltd., Kunming 650011, China; 4.Yunnan Yundian Tongfang Technology Co., Ltd., Kunming 650214, China)
Abstract: To enhance the accuracy and performance of text similarity measurement of science and technology projects, this paper proposes a new approach for measuring text similarity of science and technology projects by combining TF-IDF and Simhash. Firstly, this method uses natural language processing technology to preprocess science and technology project texts to get a term set, then uses the TF-IDF method to calculate the TF-IDF value of each term in the term set, and selects the important term with higher TF-IDF value. Secondly, this method uses the Simhash algorithm to get the Simhash signature of the text through mapping the selected important terms into fixed binary strings. Finally, Hamming distance is used to calculate the similarity between two Simhash signatures. Experimental results show that compared to the traditional Simhash and TF-IDF, the proposed method can promote the evaluation metrics of precision, recall and F-measure.
Key words : science and technology project text;text similarity;TF-IDF;Simhash

0 引言

隨著國家對科技事業經費的大量投入,少數科研單位或個人為了獲取更多的科研經費,出現了重復申報的現象。文本相似性度量被認為是檢測文本重復的最好方法之一,可以用來自動檢測科技項目文本的相似性和重復性。

TF-IDF是一種經典的文本相似性度量方法,將文本視為詞項的集合,并通過詞頻信息將文本表示為一個向量,以此計算文本的相似性。但是,該方法并沒有降低文本模型的維度。對于科技項目文本,由于詞項數目巨大,因此,基于詞頻向量模型的文本表示是高維、稀疏的,這將導致低效的計算性能。

Simhash是一種局部敏感哈希方法,將高維數據降維到具有固定長度的二進制串(Simhash簽名),再通過對二進制串進行相似性計算來比較文本的相似度。這種方法在高維數據空間具有優異的計算性能。但是,該方法未考慮科技項目文本中詞項的重要性,存在準確率不高的問題。



本文詳細內容請下載:http://m.jysgc.com/resource/share/2000005355




作者信息:

孫北寧1,2,呂維新3,曾俊4,肖衡4

(1.云南電網有限責任公司 科數部,云南 昆明 650011;2.西南林業大學 大數據與智能工程學院,云南 昆明 650224;
3.云南電網有限責任公司 昆明供電局,云南 昆明 650011;4.云南云電同方科技有限公司,云南 昆明 650214)


此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
国产综合网站| 狠狠色狠色综合曰曰| 欧美有码在线观看视频| 一区二区日韩| 亚洲精品孕妇| 最新日韩av| 亚洲三级色网| 亚洲国产精品一区二区第四页av | 国产一区激情| 国产婷婷精品| 国内精品久久久久影院色| 国产一区99| 国产一区二区三区网站| 国产一区二区三区久久精品| 国产美女一区二区| 国产精品久久午夜| 国产精品入口66mio| 国产精品毛片a∨一区二区三区| 欧美日韩一区二区三区| 欧美日韩一区在线视频| 欧美性做爰猛烈叫床潮| 欧美性做爰毛片| 国产精品区一区| 国产女主播一区| 国产一本一道久久香蕉| 国产综合激情| 在线观看成人小视频| 亚洲激情在线观看| 一本大道久久精品懂色aⅴ| 中文亚洲欧美| 亚洲欧美日韩国产综合| 欧美影院久久久| 亚洲第一福利视频| 亚洲精品欧美激情| 亚洲视频在线观看视频| 欧美一级视频| 久久香蕉国产线看观看av| 欧美成人a视频| 欧美日韩综合网| 国产欧美日韩一区二区三区| 狠狠色丁香婷婷综合久久片| 亚洲黄色av一区| 亚洲视频导航| 欧美在线一二三区| 亚洲毛片在线| 午夜国产精品视频免费体验区| 久久精品欧美| 欧美黄色精品| 国产精品国产精品国产专区不蜜| 国产亚洲电影| 亚洲国产成人在线| av成人国产| 欧美在线在线| 在线视频欧美精品| 久久精品国产99精品国产亚洲性色 | 久久精品一区二区三区不卡牛牛 | 亚洲大片免费看| 一区二区三区福利| 久久黄金**| 亚洲午夜日本在线观看| 久久久久久免费| 欧美精品一卡二卡| 国产视频一区免费看| 亚洲国产一区二区三区a毛片| 亚洲网站视频| 亚洲国产精品精华液2区45| 亚洲视频在线观看免费| 久久久一区二区三区| 欧美精品免费播放| 国产一区二区按摩在线观看| 亚洲精品社区| 久久精品国产亚洲a| 亚洲自拍电影| 欧美大色视频| 国产一区二区三区免费不卡| 夜夜精品视频| 亚洲国产精品悠悠久久琪琪| 亚洲欧美日韩人成在线播放| 欧美成ee人免费视频| 国产精品自拍一区| 亚洲美女诱惑| 亚洲国产毛片完整版| 性欧美video另类hd性玩具| 欧美激情欧美狂野欧美精品| 国产日本欧美一区二区三区在线 | 在线中文字幕日韩| 美女网站久久| 国产亚洲午夜| 亚洲小视频在线| 99伊人成综合| 欧美电影免费观看高清完整版| 欧美日韩成人综合| 国产视频在线一区二区| 一本色道久久综合狠狠躁篇怎么玩| 亚洲国产精品免费| 久久久久国产一区二区| 欧美体内she精视频在线观看| 精品av久久707| 欧美一区二区在线看| 亚洲一区免费| 欧美精品亚洲精品| 在线观看亚洲精品| 久久精品导航| 久久精品亚洲一区| 国产精品毛片a∨一区二区三区|国| 亚洲精品国产拍免费91在线| 亚洲高清免费视频| 久久青草福利网站| 国产亚洲一区精品| 欧美亚洲午夜视频在线观看| 亚洲一区久久久| 欧美日韩亚洲一区二区三区在线| 91久久久一线二线三线品牌| 亚洲人成久久| 欧美1区3d| 亚洲国产mv| 亚洲精品影视| 欧美精品一区在线发布| 亚洲欧洲日本一区二区三区| 亚洲另类自拍| 欧美久久99| 99精品久久| 亚洲综合另类| 国产精品欧美一区二区三区奶水 | 日韩一级大片在线| 一区二区三区国产精华| 欧美日韩视频不卡| 一区二区免费在线播放| 亚洲综合色在线| 国产精品九九久久久久久久| 亚洲视频精选在线| 亚洲欧美激情视频| 国产欧美精品日韩区二区麻豆天美| 亚洲免费在线电影| 欧美专区福利在线| 一色屋精品视频在线观看网站| 亚洲国产一区在线| 欧美区在线观看| 亚洲视频观看| 久久精品亚洲一区二区| 一区在线视频观看| 亚洲免费av片| 国产精品video| 亚洲欧美制服中文字幕| 久久男女视频| 亚洲人成久久| 午夜亚洲激情| 黑人巨大精品欧美一区二区小视频| 亚洲国语精品自产拍在线观看| 欧美激情一区二区三区高清视频| 日韩香蕉视频| 欧美影片第一页| 伊人久久大香线蕉综合热线| 亚洲精品视频在线观看网站| 欧美三级视频在线观看| 亚洲欧美激情诱惑| 久久尤物视频| 99国产精品久久久久久久| 欧美在线看片| 亚洲国产第一| 亚洲欧美在线网| 一区二区三区在线视频免费观看| 夜夜精品视频| 国产日韩一区二区三区| 亚洲人成在线观看一区二区| 国产精品mm| 亚洲国产精品悠悠久久琪琪| 欧美日韩综合在线| 久久国产视频网站| 欧美色欧美亚洲高清在线视频| 欧美一区二区三区免费观看| 欧美成人免费一级人片100| 亚洲视频免费在线| 蜜桃视频一区| 亚洲影院污污.| 欧美精品91| 亚洲欧美日韩国产综合精品二区| 欧美大香线蕉线伊人久久国产精品| 亚洲一区二区精品| 欧美电影电视剧在线观看| 亚洲综合视频一区| 欧美91视频| 亚洲欧美日韩视频二区| 欧美精品在线免费观看| 欧美一级专区| 国产精品豆花视频| 日韩视频亚洲视频| 国产一区二区三区成人欧美日韩在线观看 | 亚洲在线播放电影| 欧美激情网站在线观看| 午夜激情一区| 欧美日韩在线三区| 亚洲国产专区| 国产欧美日韩专区发布| 一区二区日本视频| 在线视频国产日韩| 久久精品国产成人| 亚洲一区久久久| 欧美日韩在线视频观看| 亚洲精品少妇网址|