《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計應(yīng)用 > 一種面向科技項目文本的相似度度量方法
一種面向科技項目文本的相似度度量方法
2020年電子技術(shù)應(yīng)用第5期
趙曉平1,馬 文1,劉雪萍2,陳 達(dá)2
1. 云南電網(wǎng)有限責(zé)任公司 信息中心,云南 昆明 650011;2. 云南云電同方科技有限公司,云南 昆明 650220
摘要: 現(xiàn)有的文本相似度度量方法主要采用TF-IDF方法,把文本建模為詞頻向量,但未考慮文本的結(jié)構(gòu)特征。現(xiàn)將文本的結(jié)構(gòu)特征和TF-IDF方法進(jìn)行融合,提出了一種面向科技項目文本的相似度度量方法。該方法首先對文本進(jìn)行預(yù)處理,其次根據(jù)文本的結(jié)構(gòu)特征提取模塊文本,然后使用TF-IDF方法提取每個模塊文本的TOP-N關(guān)鍵詞, 作為模塊文本的特征向量表示,最后使用余弦聚類計算文本的相似度。實驗結(jié)果表明,在電力行業(yè)的科技項目文檔數(shù)據(jù)集上,所提方法優(yōu)于TF-IDF方法。
中圖分類號: TP311
文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.191420
中文引用格式: 趙曉平,馬文,劉雪萍,等. 一種面向科技項目文本的相似度度量方法[J].電子技術(shù)應(yīng)用,2020,46(5):31-34,39.
英文引用格式: Zhao Xiaoping,Ma Wen,Liu Xueping,et al. A similarity measurement method for science and technology project text[J]. Application of Electronic Technique,2020,46(5):31-34,39.
A similarity measurement method for science and technology project text
Zhao Xiaoping1,Ma Wen1,Liu Xueping2,Chen Da2
1.Information Center,Yunnan Power Grid Co.,Ltd.,Kunming 650011,China; 2.Yunnan Yundian Tongfang Technology Co.,Ltd.,Kunming 650220,China
Abstract: Existing text similarity measurements often use the TF-IDF method to model texts as term frequency vectors without considering the structural features of texts. This paper combines the structural features of texts with the TF-IDF method and proposes a text similarity measurement for science and technology project texts. This approach firstly pre-processes a text and extracts module texts according to its structural features. After applying the TF-IDF method to these extracted module texts, this method extracts the top keywords of each module text, obtains its feature vector representation, and finally uses cosine formula to calculate the similarity of two texts. By comparing with the TF-IDF method, experimental results show that the proposed method can promote the evaluation metrics of F-measure.
Key words : text similarity;TF-IDF;text clustering;natural language process

0 引言

    文本相似度度量是指將文本看成一組詞的集合體,分析每個詞在文本中出現(xiàn)的次數(shù)以及在整個文本集合中出現(xiàn)次數(shù),進(jìn)而利用這些詞頻信息將文本建模為一個向量,并利用向量間的余弦距離等計算文本之間的相似度[1-2]

    文本相似度度量被廣泛應(yīng)用于許多領(lǐng)域,例如:信息檢索領(lǐng)域[3-4]、文本分類[5-8]、文本摘要的自動生成[9-10]、文本的查重檢測[11-12]。本文關(guān)注的是在電力行業(yè)的科技項目查重中應(yīng)用文本相似度度量。

    現(xiàn)有的TF-IDF[13-15]方法主要將文本建模為詞頻向量,再使用余弦相似度來計算兩個文本間的相似度。但是對于多數(shù)文本而言,這種采用詞頻向量模型的方法需要將文本表示為詞項數(shù)目與文本數(shù)目大致相當(dāng)?shù)木仃嚕仃囍械男辛邢蛄慷加兄浅8叩木S度并且是極度稀疏的,從而最終導(dǎo)致非常低效的計算[1,16]。此外,這種方法也忽略了文本的的結(jié)構(gòu)特征。

    針對上述問題,本文提出一種既考慮了文本的結(jié)構(gòu)特征,又能有效降低文本表示模型維度的文本相似度度量方法。給定兩個文本,通過文本所提方法能夠高效、準(zhǔn)確地計算出兩者間的相似度,為電力行業(yè)科技項目的查重提供有效支撐。



論文詳細(xì)內(nèi)容請下載http://m.jysgc.com/resource/share/2000002786




作者信息:

趙曉平1,馬  文1,劉雪萍2,陳  達(dá)2

(1. 云南電網(wǎng)有限責(zé)任公司 信息中心,云南 昆明 650011;2. 云南云電同方科技有限公司,云南 昆明 650220)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美有码在线观看视频| 欧美日韩免费观看一区二区三区| 亚洲精品日韩在线| 欧美一区二区三区喷汁尤物| 亚洲一区观看| 亚洲先锋成人| 亚洲视频在线一区| 中文亚洲字幕| 亚洲少妇诱惑| 亚洲在线播放| 亚洲欧美日韩天堂| 亚洲欧美国产精品va在线观看 | 久久精品视频在线| 久久精品一二三| 久久久一本精品99久久精品66| 久久精品卡一| 久久免费视频在线| 牛牛国产精品| 欧美老女人xx| 欧美日韩在线精品| 国产精品久久久久久久午夜| 国产精品欧美日韩久久| 国产欧美一区二区三区在线老狼 | 欧美一区二区啪啪| 久久精品理论片| 久热精品在线| 欧美精品1区| 国产精品xxx在线观看www| 国产精品久久99| 国产精品午夜av在线| 国产日韩欧美在线视频观看| 国产伪娘ts一区| 亚洲观看高清完整版在线观看| 亚洲区一区二区三区| 99xxxx成人网| 午夜精品久久久久| 亚洲国产欧美日韩精品| 在线一区欧美| 久久成人精品无人区| 蜜臀91精品一区二区三区| 欧美日韩91| 国产精品一区免费在线观看| 国内精品视频久久| 亚洲人成艺术| 亚洲欧美日韩在线一区| 亚洲高清一二三区| 一本色道久久综合亚洲精品按摩| 午夜国产精品视频免费体验区| 久久精品亚洲一区二区| 欧美国产综合视频| 国产精品色婷婷| 在线观看欧美日韩国产| 在线视频亚洲欧美| 久久国产88| 这里只有精品丝袜| 久久久久久穴| 欧美日韩在线大尺度| 国产一区在线播放| 亚洲乱码国产乱码精品精可以看| 亚洲免费综合| 亚洲精品欧美精品| 欧美影院在线播放| 欧美激情综合在线| 国产午夜精品久久久久久久| 91久久精品视频| 午夜精品一区二区三区在线视 | 韩国视频理论视频久久| 亚洲欧洲一区二区在线观看| 午夜精品久久| 中文精品视频一区二区在线观看| 久久久国产精品一区二区三区| 欧美精品久久99| 国产亚洲成av人片在线观看桃| 亚洲精品国产视频| 欧美在线视频免费观看| 亚洲影视在线播放| 欧美国产日韩一二三区| 国产亚洲免费的视频看| 一二三区精品| 亚洲人成亚洲人成在线观看| 久久不见久久见免费视频1| 欧美日韩国产综合久久| 激情综合久久| 午夜激情综合网| 亚洲午夜视频在线| 欧美国产日韩一区二区三区| 国产在线观看一区| 亚洲无线一线二线三线区别av| 亚洲精品小视频在线观看| 久久精品国产清自在天天线| 欧美午夜免费影院| 亚洲黄网站在线观看| 久久国产精品99国产精| 午夜精品理论片| 欧美三区在线| 亚洲精品久久7777| 91久久国产精品91久久性色| 久久久99久久精品女同性| 国产精品日韩久久久| 一本色道久久| 在线视频精品| 欧美精品首页| 亚洲黄色影院| 亚洲精品一区二区三区樱花| 久久一区二区三区四区| 国产亚洲人成a一在线v站| 亚洲制服少妇| 羞羞色国产精品| 国产精品日韩精品欧美在线| 亚洲丝袜av一区| 亚洲一区二区三区免费观看| 欧美日韩另类国产亚洲欧美一级| 亚洲人成在线播放| 亚洲美女av电影| 欧美激情麻豆| 亚洲精品一区二| 艳女tv在线观看国产一区| 欧美激情第一页xxx| 亚洲国产成人一区| 亚洲欧洲一区二区三区在线观看| 久热综合在线亚洲精品| 一区在线影院| 91久久精品视频| 欧美xart系列高清| 亚洲级视频在线观看免费1级| 亚洲日本中文| 欧美精品二区| 日韩视频在线免费观看| 亚洲午夜91| 国产精品日韩欧美一区二区| 亚洲欧美成人网| 久久精品1区| 黄色欧美成人| 最新国产成人av网站网址麻豆| 免费亚洲电影在线| 亚洲高清在线| 在线视频一区二区| 国产精品成人免费精品自在线观看| 中文av一区特黄| 欧美在线免费视屏| 一区二区三区我不卡| 亚洲美女诱惑| 国产精品高潮粉嫩av| 午夜精品成人在线| 免费观看日韩| 日韩一二三在线视频播| 欧美亚洲免费| 影音先锋久久久| 亚洲深夜福利网站| 国产欧美日韩不卡| 亚洲第一级黄色片| 欧美精品v日韩精品v国产精品| 99国内精品久久| 欧美一区精品| 亚洲国产精品日韩| 亚洲永久视频| 国产综合欧美| 亚洲最新在线视频| 国产美女精品免费电影| 亚洲国产精品一区二区www在线 | 欧美在线免费观看视频| 欧美高清在线视频观看不卡| 9久草视频在线视频精品| 香蕉久久一区二区不卡无毒影院| 国精品一区二区| 一区二区免费看| 国产亚洲精品久久久久婷婷瑜伽| 最新国产精品拍自在线播放| 国产精品h在线观看| 亚洲第一二三四五区| 欧美视频三区在线播放| 久久国产欧美日韩精品| 欧美三级特黄| 亚洲高清网站| 国产精品伦理| 亚洲精品中文在线| 国产女人18毛片水18精品| 亚洲精品欧美日韩专区| 国产精品手机在线| 亚洲三级免费观看| 国产农村妇女精品一二区| 亚洲精品一区中文| 国产伦精品一区二区三区照片91 | 欧美性事在线| 亚洲国产天堂久久综合网| 国产精品地址| 亚洲肉体裸体xxxx137| 国产日韩欧美夫妻视频在线观看| 日韩亚洲在线| 狠狠综合久久| 午夜精品短视频| 亚洲精品国偷自产在线99热| 久久久久久久久久久久久9999 | 亚洲国产精品久久91精品| 国产精品国产三级国产| 亚洲精品免费一二三区| 国内精品视频666| 性欧美办公室18xxxxhd| 日韩午夜黄色| 免费成年人欧美视频|