《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 設(shè)計(jì)應(yīng)用 > 一種基于Simhash算法的重復(fù)域名數(shù)據(jù)去重方法
一種基于Simhash算法的重復(fù)域名數(shù)據(jù)去重方法
信息技術(shù)與網(wǎng)絡(luò)安全 4期
侯開茂,韓慶敏,吳云峰,黃 兵,張久發(fā),柴處處
(中國電子信息產(chǎn)業(yè)集團(tuán)有限公司第六研究所,北京100083)
摘要: 隨著數(shù)字科學(xué)技術(shù)的發(fā)展,各領(lǐng)域需要傳輸和存儲(chǔ)的數(shù)據(jù)量急劇上升。然而傳輸和存儲(chǔ)的數(shù)據(jù)中重復(fù)數(shù)量占據(jù)了很大的比例,這不僅會(huì)增加使用數(shù)據(jù)的成本,也會(huì)影響處理數(shù)據(jù)的效率。域名是一種存儲(chǔ)量大而且對處理速率有極高要求的數(shù)據(jù),為了節(jié)約域名解析系統(tǒng)的存儲(chǔ)成本,提高傳輸效率,本文在原有數(shù)據(jù)去重技術(shù)的基礎(chǔ)上,引入了Simhash算法,結(jié)合域名數(shù)據(jù)的結(jié)構(gòu)特征,改進(jìn)數(shù)據(jù)分詞和指紋值計(jì)算方式,提出了一種基于Simhash算法的重復(fù)域名數(shù)據(jù)去重方法。實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)的數(shù)據(jù)去重技術(shù),該方法對刪除重復(fù)域名數(shù)據(jù)效率更高,具有較好的實(shí)際應(yīng)用價(jià)值。
中圖分類號(hào): TP391
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2022.04.011
引用格式: 侯開茂,韓慶敏,吳云峰,等. 一種基于Simhash算法的重復(fù)域名數(shù)據(jù)去重方法[J].信息技術(shù)與網(wǎng)絡(luò)安全,2022,41(4):71-76.
Method for deleting duplicate domain name data based on Simhash algorithm
Hou Kaimao,Han Qingmin,Wu Yunfeng,Huang Bing,Zhang Jiufa,Chai Chuchu
(The 6th Research Institute of China Electronics Corporation,Beijing 100083,China)
Abstract: With the development of digital science and technology, the amount of data that needs to be transmitted and stored in various fields has risen sharply. However, the number of repetitions in these data occupies a large proportion. This not only increases the cost of using data, but also reduces the efficiency of data processing. Domain name is a kind of data with large storage capacity and extremely high requirements for processing speed. In order to save storage cost and improve transmission efficiency, this paper proposes a method for deleting duplicate domain name data based on Simhash algorithm. Compared with the traditional data deduplication technology, this method combines the structural characteristics of the domain name data, and introduces the Simhash algorithm to design a deduplication method for the domain name data. The experimental results show that compared with the traditional data deduplication technology, this method is more efficient in deleting duplicate domain name data and has better practical application value.
Key words : data deduplication;domain name;Simhash;data block

0 引言

隨著電子信息技術(shù)的發(fā)展,各行各業(yè)都產(chǎn)生了大量的數(shù)據(jù)信息,根據(jù)國際數(shù)據(jù)公司(International Data Corporation,IDC)的最新預(yù)測:到2023年,中國的數(shù)據(jù)量將達(dá)到40 ZB,并且隨著5G技術(shù)的普及,數(shù)據(jù)量增長將會(huì)迎來又一個(gè)新的高潮[1]。有研究發(fā)現(xiàn),這些數(shù)據(jù)中超過60%都是重復(fù)冗余數(shù)據(jù)[2],傳輸和存儲(chǔ)這些冗余數(shù)據(jù)不僅造成了存儲(chǔ)資源和網(wǎng)絡(luò)資源的嚴(yán)重浪費(fèi),也降低了使用數(shù)據(jù)的效率。并且隨著時(shí)間推移,這些數(shù)據(jù)帶來的冗余問題會(huì)越來越嚴(yán)重。域名[3](Domain Name)作為互聯(lián)網(wǎng)中頻繁使用的數(shù)據(jù)類型之一,是一種特殊的數(shù)據(jù)形式,其對字符的變化敏感度極高,一個(gè)字符的變化往往會(huì)對使用結(jié)果產(chǎn)生嚴(yán)重的影響。因此,處理重復(fù)域名數(shù)據(jù)需要采用精確而且高效的去重技術(shù)。

已有重復(fù)數(shù)據(jù)處理技術(shù)中,完全文件檢測(Whole File Detection,WFD)技術(shù)[4]無法對內(nèi)容進(jìn)行查重處理,固定分塊(Fixed-Sized Partition,F(xiàn)SP)檢測技術(shù)、可變分塊檢測技術(shù)和滑動(dòng)塊檢測技術(shù)都是針對數(shù)據(jù)共有特征的粗粒度去重,直接用于重復(fù)域名的處理效果并不理想。因此,本文在已有重復(fù)數(shù)據(jù)檢測技術(shù)的基礎(chǔ)上,引入Simhash算法,結(jié)合域名數(shù)據(jù)的結(jié)構(gòu)特征,改進(jìn)計(jì)算文本特征值的方式,提出了一種基于Simhash算法的重復(fù)域名數(shù)據(jù)去重方法。經(jīng)過實(shí)驗(yàn)對比看出,該方法對于處理重復(fù)域名數(shù)據(jù)效果更好,同時(shí)在時(shí)間開銷上也和原有技術(shù)差別不大,對于處理重復(fù)域名數(shù)據(jù)具有比傳統(tǒng)去重技術(shù)更好的實(shí)用價(jià)值。






本文詳細(xì)內(nèi)容請下載:http://m.jysgc.com/resource/share/2000004102






作者信息:

侯開茂,韓慶敏,吳云峰,黃  兵,張久發(fā),柴處處

(中國電子信息產(chǎn)業(yè)集團(tuán)有限公司第六研究所,北京100083)




微信圖片_20210517164139.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美三级网页| 亚洲国产成人午夜在线一区| 久久九九久精品国产免费直播| 亚洲午夜免费视频| 最新日韩中文字幕| 亚洲欧洲另类| 亚洲欧洲久久| 亚洲精品国精品久久99热一| 亚洲国产精品久久人人爱蜜臀 | 久久精品一区二区三区四区| 午夜精品久久久久久久久久久| 亚洲一区二区三区乱码aⅴ蜜桃女| 亚洲天堂第二页| 亚洲宅男天堂在线观看无病毒| 亚洲影视在线| 午夜一级久久| 性色一区二区三区| 欧美一级在线视频| 久久成人羞羞网站| 久久久精品2019中文字幕神马| 久久久国产精彩视频美女艺术照福利 | 欧美视频中文字幕| 国产精品黄视频| 国产精品卡一卡二| 国产欧美一区二区三区视频| 国产亚洲电影| 在线成人亚洲| 亚洲另类春色国产| 在线视频欧美日韩| 西西裸体人体做爰大胆久久久| 羞羞视频在线观看欧美| 久久精品首页| 亚洲精品永久免费| 亚洲一区亚洲| 久久国产乱子精品免费女| 久久亚洲综合色一区二区三区| 另类欧美日韩国产在线| 欧美国产精品劲爆| 欧美视频中文一区二区三区在线观看| 国产精品女主播在线观看| 国产在线播放一区二区三区| 在线看国产日韩| 亚洲人在线视频| 亚洲天堂av在线免费观看| 欧美一级黄色网| 最新高清无码专区| 亚洲一区二区三区色| 性欧美精品高清| 另类激情亚洲| 欧美视频在线播放| 国产一区深夜福利| 91久久在线观看| 亚洲一区视频在线| 亚洲高清资源| 亚洲第一精品电影| 野花国产精品入口| 久久aⅴ国产紧身牛仔裤| 蜜臀av一级做a爰片久久| 欧美午夜精品久久久久久孕妇| 国产精品色一区二区三区| 国产字幕视频一区二区| 91久久精品国产91性色tv| 亚洲一级高清| 亚洲欧洲精品一区二区精品久久久| 亚洲手机成人高清视频| 欧美在线影院| 欧美激情麻豆| 国产一区二区欧美| 99热这里只有成人精品国产| 欧美一区二区三区在线看| 日韩视频二区| 久久精品国产综合精品| 欧美日韩亚洲不卡| 一区二区视频在线观看| 亚洲性av在线| 亚洲人成亚洲人成在线观看图片 | 欧美日韩一区二区三区四区在线观看| 国产麻豆一精品一av一免费| 最新中文字幕一区二区三区| 午夜电影亚洲| 亚洲视频你懂的| 另类天堂av| 国产日韩欧美制服另类| 99riav国产精品| 亚洲国产精品久久| 小黄鸭精品aⅴ导航网站入口| 女人色偷偷aa久久天堂| 国产视频综合在线| 国产精品99久久久久久久女警| 亚洲福利在线观看| 欧美一区二区| 欧美日韩中文字幕在线视频| 亚洲国产午夜| 亚洲国产cao| 久久精品亚洲国产奇米99| 国产精品久久久99| 亚洲另类春色国产| 亚洲精品在线看| 久久综合久久综合这里只有精品| 国产精品美女久久久久aⅴ国产馆| 91久久在线播放| 亚洲欧洲日产国产综合网| 久久精品国产99国产精品| 国产精品女主播一区二区三区| 亚洲精品在线视频观看| 亚洲日韩欧美视频一区| 久久免费精品视频| 国产视频亚洲| 亚洲欧美变态国产另类| 亚洲免费在线电影| 欧美系列精品| 一区二区三区久久久| 一区二区三区.www| 欧美精品九九| 亚洲国产女人aaa毛片在线| 久久精品国产99| 久久综合免费视频影院| 黄色av成人| 久久精品1区| 久久综合给合| 亚洲电影在线看| 亚洲精品婷婷| 欧美精品v日韩精品v国产精品 | 久久久久久精| 国产视频精品网| 欧美一区二区视频在线| 久久精品人人做人人综合| 国产一区二区三区的电影| 欧美专区日韩视频| 久久影视三级福利片| 激情成人综合| 亚洲黄一区二区| 欧美国产欧美亚洲国产日韩mv天天看完整 | 亚洲视频一区在线观看| 亚洲欧美日韩在线观看a三区| 欧美性jizz18性欧美| 亚洲天堂黄色| 久久国产精品99精品国产| 国内激情久久| 亚洲精品永久免费| 欧美精品网站| 亚洲一区免费看| 久久久亚洲精品一区二区三区| 在线成人av网站| 一本色道久久综合| 国产精品乱码一区二三区小蝌蚪| 亚洲免费人成在线视频观看| 久久久噜噜噜久久中文字幕色伊伊| 黑人巨大精品欧美一区二区| 亚洲精品日产精品乱码不卡| 欧美日韩一区二区在线视频| 亚洲一区黄色| 久久亚洲春色中文字幕久久久| 亚洲国产精品尤物yw在线观看| 在线亚洲欧美视频| 国产精品色婷婷| 亚洲国产日韩精品| 欧美日韩免费高清| 亚洲欧美日韩综合aⅴ视频| 卡通动漫国产精品| 亚洲精品在线视频| 欧美在线视频a| 亚洲国产精品传媒在线观看| 亚洲一区二区视频| 黄色工厂这里只有精品| 一区二区免费在线观看| 国产精品日韩欧美综合| 亚洲韩国日本中文字幕| 国产精品国产一区二区| 久久精品国产77777蜜臀| 欧美日本国产视频| 午夜精品在线看| 欧美激情在线免费观看| 亚洲一区二区三区四区中文 | 欧美一区国产二区| 亚洲激情第一区| 性做久久久久久久免费看| 亚洲国产成人精品女人久久久 | 亚洲视频一二区| 国产综合久久| 亚洲图片在线观看| 一区二区视频欧美| 午夜精品成人在线视频| 亚洲国产精品一区二区www| 欧美亚洲自偷自偷| 亚洲片在线资源| 久久久久se| 亚洲一卡二卡三卡四卡五卡| 欧美成人精品在线播放| 午夜精品99久久免费| 欧美日韩精品一区二区天天拍小说| 欧美一区二区三区四区夜夜大片| 欧美色另类天堂2015| 久久精品人人| 国产精品专区第二| 一区二区三区四区蜜桃| 亚洲第一页自拍| 久久艳片www.17c.com| 亚洲欧美中文在线视频| 欧美日韩在线播放一区二区|