《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 一種結合TF-IDF和Simhash的科技項目文本相似性度量方法
一種結合TF-IDF和Simhash的科技項目文本相似性度量方法
電子技術應用
孫北寧1,2,呂維新3,曾俊4,肖衡4
(1.云南電網有限責任公司 科數部,云南 昆明 650011;2.西南林業大學 大數據與智能工程學院,云南 昆明 650224; 3.云南電網有限責任公司 昆明供電局,云南 昆明 650011;4.云南云電同方科技有限公司,云南 昆明 650214)
摘要: 為了提高科技項目文本相似性度量的準確性和性能,將TF-IDF和Simhash相結合,提出了一種新的科技項目文本相似性度量方法。首先,該方法對科技項目文本進行預處理得到詞項集合,再使用TF-IDF計算詞項集合中每個詞項的權重值,并選取具有較高權重值的重要詞項;其次,使用Simhash把重要詞項映射為固定長度的二進制串,并求和得到文本的Simhash簽名;最后,使用漢明距離計算兩個Simhash簽名間的相似性。實驗結果表明,所提方法在查準率、召回率和F度量值方面優于傳統的Simhash算法和TF-IDF方法。
中圖分類號:TP311
文獻標志碼:A
DOI: 10.16157/j.issn.0258-7998.223379
中文引用格式: 孫北寧,呂維新,曾俊,等. 一種結合TF-IDF和Simhash的科技項目文本相似性度量方法[J]. 電子技術應用,2023,49(6):89-93.
英文引用格式: Sun Beining,Lv Weixin,Zeng Jun,et al. An approach for text similarity measurement of science and technology projects combing TF-IDF and Simhash[J]. Application of Electronic Technique,2023,49(6):89-93.
An approach for text similarity measurement of science and technology projects combing TF-IDF and Simhash
Sun Beining1,2,Lv Weixin3,Zeng Jun4,Xiao Heng4
(1.Department of Science Technology and Data, Yunnan Power Grid Co., Ltd., Kunming 650011, China; 2.School of Big Data and Intelligent Engineering, Southwest Forestry University, Kunming 650224, China; 3.Kunming Power Supply Bureau, Yunnan Power Grid Co., Ltd., Kunming 650011, China; 4.Yunnan Yundian Tongfang Technology Co., Ltd., Kunming 650214, China)
Abstract: To enhance the accuracy and performance of text similarity measurement of science and technology projects, this paper proposes a new approach for measuring text similarity of science and technology projects by combining TF-IDF and Simhash. Firstly, this method uses natural language processing technology to preprocess science and technology project texts to get a term set, then uses the TF-IDF method to calculate the TF-IDF value of each term in the term set, and selects the important term with higher TF-IDF value. Secondly, this method uses the Simhash algorithm to get the Simhash signature of the text through mapping the selected important terms into fixed binary strings. Finally, Hamming distance is used to calculate the similarity between two Simhash signatures. Experimental results show that compared to the traditional Simhash and TF-IDF, the proposed method can promote the evaluation metrics of precision, recall and F-measure.
Key words : science and technology project text;text similarity;TF-IDF;Simhash

0 引言

隨著國家對科技事業經費的大量投入,少數科研單位或個人為了獲取更多的科研經費,出現了重復申報的現象。文本相似性度量被認為是檢測文本重復的最好方法之一,可以用來自動檢測科技項目文本的相似性和重復性。

TF-IDF是一種經典的文本相似性度量方法,將文本視為詞項的集合,并通過詞頻信息將文本表示為一個向量,以此計算文本的相似性。但是,該方法并沒有降低文本模型的維度。對于科技項目文本,由于詞項數目巨大,因此,基于詞頻向量模型的文本表示是高維、稀疏的,這將導致低效的計算性能。

Simhash是一種局部敏感哈希方法,將高維數據降維到具有固定長度的二進制串(Simhash簽名),再通過對二進制串進行相似性計算來比較文本的相似度。這種方法在高維數據空間具有優異的計算性能。但是,該方法未考慮科技項目文本中詞項的重要性,存在準確率不高的問題。



本文詳細內容請下載:http://m.jysgc.com/resource/share/2000005355




作者信息:

孫北寧1,2,呂維新3,曾俊4,肖衡4

(1.云南電網有限責任公司 科數部,云南 昆明 650011;2.西南林業大學 大數據與智能工程學院,云南 昆明 650224;
3.云南電網有限責任公司 昆明供電局,云南 昆明 650011;4.云南云電同方科技有限公司,云南 昆明 650214)


此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
黄色成人91| 香蕉乱码成人久久天堂爱免费| 国产精品性做久久久久久| 欧美日韩国产综合视频在线| 免费日韩成人| 蜜臀久久99精品久久久久久9 | 国产精品区一区二区三区| 欧美日韩精品免费观看视频| 欧美日韩伦理在线免费| 欧美日韩精品免费观看| 国产精品r级在线| 国产精品久久久久久久久免费桃花 | 国产精品成人观看视频国产奇米| 欧美视频在线一区二区三区| 欧美日韩在线视频一区二区| 欧美香蕉大胸在线视频观看| 国产精品乱码一区二三区小蝌蚪| 国产精品久久久一区二区| 国产精品一区二区在线观看| 国产一区欧美| 激情欧美丁香| 亚洲国产日韩在线| 艳妇臀荡乳欲伦亚洲一区| 一区二区三区精密机械公司 | 夜夜狂射影院欧美极品| 亚洲一区二区三区精品视频 | 欧美三级精品| 国产精品免费看| 国产在线精品成人一区二区三区| 黄色工厂这里只有精品| 亚洲国产视频直播| 一本大道久久a久久综合婷婷| 亚洲男女自偷自拍| 久久精品一区二区三区不卡牛牛 | 久久久之久亚州精品露出| 卡一卡二国产精品| 欧美日韩国产在线| 国产乱码精品一区二区三区忘忧草| 狠狠久久五月精品中文字幕| 最新69国产成人精品视频免费| 欧美精品久久久久久久| 久久综合九九| 欧美精品激情blacked18| 欧美午夜不卡影院在线观看完整版免费| 国产精品福利在线观看| 国产偷久久久精品专区| 亚洲国产另类久久精品| 亚洲网站在线看| 亚洲福利在线观看| 亚洲视频在线观看一区| 久久久999精品视频| 欧美精品一卡二卡| 国产日韩精品一区二区| 亚洲国产精品传媒在线观看 | 久久国产免费看| 欧美电影免费观看高清完整版| 欧美色图五月天| 国产在线一区二区三区四区| 亚洲精品欧美精品| 性久久久久久久久| 一本久久a久久精品亚洲| 欧美专区在线观看| 欧美日韩国语| 精品成人一区二区三区| 亚洲午夜精品久久| 亚洲区在线播放| 午夜在线精品偷拍| 欧美激情综合在线| 国产日本欧美一区二区三区在线| 最新高清无码专区| 久久国产成人| 在线天堂一区av电影| 久久精品综合网| 国产精品xnxxcom| 亚洲国产一区二区a毛片| 亚洲欧美高清| 这里只有精品视频| 欧美国产日韩一区二区在线观看| 国产日产欧产精品推荐色| 99热免费精品| 日韩视频在线你懂得| 另类激情亚洲| 国产精品影片在线观看| 一本色道久久综合亚洲精品小说| 亚洲国产裸拍裸体视频在线观看乱了中文 | 最新高清无码专区| 中文国产成人精品| 999在线观看精品免费不卡网站| 久久久久久久久久久成人| 欧美天堂亚洲电影院在线播放| 亚洲高清在线精品| 亚洲第一色中文字幕| 久久精品91久久香蕉加勒比 | 亚洲欧洲日产国产网站| 久久精品日韩一区二区三区| 欧美怡红院视频一区二区三区| 欧美视频免费| 亚洲欧洲午夜| 亚洲精品久久久久久久久| 麻豆freexxxx性91精品| 国产日韩欧美高清免费| 亚洲私人影院在线观看| 一区二区欧美国产| 欧美女激情福利| 亚洲成色精品| 99国产精品99久久久久久粉嫩| 亚洲人体1000| 欧美a一区二区| 一区精品久久| 久久精品视频在线观看| 久久美女性网| 国语自产偷拍精品视频偷| 欧美专区日韩视频| 久久精品99国产精品日本| 国产欧美日本一区二区三区| 亚洲伊人一本大道中文字幕| 亚洲一区二区三区中文字幕在线| 欧美性生交xxxxx久久久| 中文欧美字幕免费| 亚洲欧美日韩国产综合在线| 国产精品日韩一区| 午夜精品久久久久久99热| 久久国产精品色婷婷| 国内成人精品一区| 亚洲国产精品久久91精品| 麻豆精品精品国产自在97香蕉| 在线精品视频免费观看 | 亚洲性夜色噜噜噜7777| 欧美性视频网站| 亚洲欧美日韩综合aⅴ视频| 久久疯狂做爰流白浆xx| 国内久久精品| 亚洲国产三级| 欧美区在线播放| 夜夜嗨av一区二区三区四季av | 欧美国产精品人人做人人爱| 亚洲精品视频一区| 亚洲一区二区黄| 国产日韩一区欧美| 亚洲国产精品久久久久秋霞蜜臀 | 国产欧美日韩专区发布| 欧美在线观看视频在线| 美女日韩在线中文字幕| 日韩午夜免费| 欧美在线一二三区| 在线播放豆国产99亚洲| 亚洲最快最全在线视频| 亚洲大片av| 亚洲二区视频| 亚洲图片你懂的| 国产一区二区精品在线观看| 亚洲国产成人在线| 欧美精品一区二区三| 亚洲网站在线看| 老牛影视一区二区三区| 亚洲免费电影在线观看| 午夜欧美不卡精品aaaaa| 伊人春色精品| 在线午夜精品自拍| 国产一区白浆| 一区二区国产在线观看| 国产午夜久久久久| 亚洲最快最全在线视频| 国产欧美日韩91| 亚洲伦理在线观看| 国产麻豆日韩| 亚洲毛片网站| 国产日产高清欧美一区二区三区| 最新国产成人在线观看| 国产精品女主播在线观看| 亚洲国产一区在线| 国产精品高精视频免费| 亚洲欧洲日本mm| 国产精品亚洲视频| 亚洲精品一区二区在线| 国产欧美日韩视频一区二区三区 | 91久久线看在观草草青青| 欧美一级成年大片在线观看| 在线看片欧美| 欧美一区二区三区在线| 亚洲精品欧美激情| 久久综合999| 亚洲资源av| 欧美久久成人| 亚洲国产精品va在看黑人| 国产精品视频专区| 夜夜爽www精品| 在线成人小视频| 久久爱www.| 亚洲视频一起| 欧美精品一卡二卡| 亚洲国产日韩欧美在线动漫| 国产欧美日韩视频一区二区| 中文一区字幕| 亚洲国产精品欧美一二99| 久久精品视频在线看| 亚洲一区二区在线| 欧美日韩一区二区免费视频| 亚洲国产综合视频在线观看| 国产午夜精品全部视频播放|