《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 設計應用 > 一種基于指令流水線的數據匹配算法
一種基于指令流水線的數據匹配算法
電子技術應用
楊嘉佳,李正,鄭兒,趙靜,燕瑋,劉金
中國電子信息產業集團有限公司第六研究所
摘要: 基于正則表達式的數據匹配技術在基礎數據治理和清洗方面有著重要的應用價值。然而,在高性能計算領域的數據處理過程中因算法匹配吞吐率低,無法滿足大數據處理環境下對算法的高性能要求,造成其應用范圍受限。針對此現象,提出一種基于指令流水線的數據匹配算法,稱之為γFA:利用Intel架構內置的向量指令流水式讀入若干字符段,通過大寬度向量比較函數進行字符段與非信任字符集的流水比值處理并轉換成整型向量,通過位置定位函數累加定位出所有整型向量的首個非信任字符位置,計算出可略過的總字符數,減少正則表達式匹配引擎因處理非信任字符集導致訪問低速內存而帶來巨大的時間開銷,實現正則表達式匹配算法的性能提升。實驗結果表明,γFA算法的吞吐率是原始DFA算法的15.88~53.06倍,相比于ßFA算法,吞吐率提升了35.12%~63.26%,取得較好的性能加速效果。此外,通過對γFA算法進行優化后,性能可接近100 Gb/s,為原始DFA匹配算法性能的15.88~64.94倍,相比于γFA算法性能提升了2.15%~43.09%。
中圖分類號:TP391.1 文獻標志碼:A DOI: 10.16157/j.issn.0258-7998.245345
中文引用格式: 楊嘉佳,李正,鄭兒,等. 一種基于指令流水線的數據匹配算法[J]. 電子技術應用,2025,51(2):81-85.
英文引用格式: Yang Jiajia,Li Zheng,Zheng Er,et al. A data matching algorithm based on instruction pipeline[J]. Application of Electronic Technique,2025,51(2):81-85.
A data matching algorithm based on instruction pipeline
Yang Jiajia,Li Zheng,Zheng Er,Zhao Jing,Yan Wei,Liu Jin
The Sixth Research Institute of China Electronics Corporation
Abstract: The data matching technology based on regular expressions has significant application value in basic data governance and cleaning. However, in the data processing process of high-performance computing, the low performance of algorithm matching cannot meet the high-performance requirements of algorithms in the big data processing environment, resulting in limited application scope. To address this issue, a high-performance data matching algorithm based on instruction pipelining is proposed, known as γFA. It utilizes the vector instruction pipelining built into the Intel architecture to read in multiple character segments, performs pipeline ratio processing of the character segments with untrusted character sets through a wide-width vector comparison function, and converts them into integer vectors. The position location function is then used to accumulate and locate the first untrusted character position in the integer vector, calculate the number of characters that can be skipped, and reduce the significant time overhead caused by the regular expression matching engine accessing slow memory when processing untrusted character sets. This achieves performance acceleration for the regular expression matching algorithm. Experimental results show that the γFA algorithm achieves a throughput rate that is 15.88 to 53.06 times higher than the original DFA algorithm. Compared to the ßFA algorithm, the throughput rate is improved by 35.12% to 63.26%, achieving a better performance acceleration effect. Furthermore, after optimizing the γFA algorithm, a performance close to 100 Gb/s can be achieved, which is 15.88 to 64.94 times better than the performance of the original DFA matching algorithm. This represents an improvement of 2.15% to 43.09% compared to the γFA algorithm.
Key words : regular expression matching;instruction pipeline;high-performance data matching

引言

數據匹配技術可應用于數據的清洗和治理,如基于正則表達式的數據匹配技術在基礎數據的過濾方面發揮重要作用,通過數據匹配可將無關數據剔除過濾,減少噪聲數據的干擾。正則表達式因具有強大的表征能力,適合用于匹配過濾真實環境下的復雜噪聲數據。例如,開源入侵檢測系統Bro IDS、Snort[1]等都使用了基于正則表達式的數據匹配功能。

基于正則表達式的數據匹配實現方式通??煞殖蓛煞N:基于非確定型有限自動機(NFA)和確定型有限自動機(DFA)。前者空間復雜度比較低,與正則表達式的長度呈線性關系,但因處理一個字符需激活多個狀態,造成匹配時間復雜性較大和匹配性能不穩定。相比而言,DFA的時間復雜性比較低,處理一個字符只需一次激活單個狀態,然而卻因規則的復雜性易導致狀態轉移空間膨脹甚至“爆炸”,造成巨大的空間開銷。

在大數據匹配環境中,DFA更多地被選擇與應用。DFA的匹配性能和空間消耗是基于正則表達式數據匹配技術的重要衡量因素。截至目前,DFA的空間消耗已有很多可行的算法被提出[2],因而不是本文研究重點。盡管已有若干算法對DFA的匹配性能進行研究,但性能低依舊是制約其廣泛應用的瓶頸因素。

針對此問題,本文基于單指令多數據流(Single Instruction Multiple Data)向量指令連續從內存中讀入若干字符段,然后分別與最常被訪問狀態(行)對應的非信任字符集進行字符并行比較操作,通過位置定位函數累加定位出首個非信任字符位置,獲取直接略過的總字符數,減少訪存次數,提高算法吞吐率。


本文詳細內容請下載:

http://m.jysgc.com/resource/share/2000006330


作者信息:

楊嘉佳,李正,鄭兒,趙靜,燕瑋,劉金

(中國電子信息產業集團有限公司第六研究所,北京 100083)


Magazine.Subscription.jpg

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
久久精品国产精品亚洲综合| 欧美激情精品久久久久久大尺度| 亚洲美女淫视频| 亚洲第一在线综合在线| 亚洲午夜精品久久久久久app| 亚洲裸体在线观看| 亚洲激情成人| 91久久精品美女高潮| 亚洲国产日韩欧美在线动漫| 亚洲国产一区二区视频| 在线免费观看日本欧美| 一区二区视频欧美| 影音国产精品| 亚洲第一久久影院| 亚洲国产欧美一区二区三区同亚洲| 激情久久一区| 在线观看亚洲精品| 亚洲第一精品夜夜躁人人躁| 亚洲大胆人体视频| 亚洲国产精品成人精品| 亚洲人成免费| 夜夜躁日日躁狠狠久久88av| 一区二区av| 亚洲一区免费视频| 欧美一区成人| 久久国产88| 亚洲日本欧美| 亚洲午夜视频在线观看| 亚洲欧美一级二级三级| 欧美一区二区三区日韩| 久久国产主播精品| 久久综合成人精品亚洲另类欧美| 久久综合久久88| 欧美激情第五页| 欧美午夜精品久久久久免费视| 欧美亚韩一区| 国产亚洲成精品久久| 国内精品久久久久久影视8| 伊人久久综合| 亚洲国产精品成人精品| 99精品国产99久久久久久福利| 亚洲一区成人| 欧美专区在线观看| 亚洲美女一区| 亚洲欧美日韩成人| 久久精品一区二区| 久久夜色精品国产| 欧美日本高清视频| 国产精品视频免费一区| 狠狠色综合网| 亚洲精品视频在线播放| 亚洲一区二区不卡免费| 久久精品人人做人人爽| 99精品国产一区二区青青牛奶| 亚洲自拍啪啪| 老司机午夜精品视频在线观看| 欧美激情在线| 国产免费成人av| 亚洲大片免费看| 亚洲视频香蕉人妖| 久久精品欧美日韩| 亚洲深夜福利| 久久尤物视频| 欧美午夜电影网| 韩国成人精品a∨在线观看| 亚洲精品久久久久中文字幕欢迎你| 亚洲在线免费视频| 91久久精品国产91性色tv| 亚洲一区二区三区免费观看 | 久久偷窥视频| 欧美日韩中文在线观看| 国内视频一区| 一本色道久久综合精品竹菊| 久久精品视频网| 亚洲影视中文字幕| 欧美69视频| 国产日韩欧美另类| 亚洲精品一线二线三线无人区| 午夜电影亚洲| 夜夜嗨av一区二区三区中文字幕| 久久精品国产免费| 欧美四级电影网站| 亚洲国产精品一区二区www| 小黄鸭精品aⅴ导航网站入口| 99精品热6080yy久久| 久久精品女人| 国产精品入口夜色视频大尺度| 亚洲国产va精品久久久不卡综合| 亚洲自啪免费| 在线视频日韩| 免费视频最近日韩| 国产日韩欧美亚洲一区| 一区二区国产在线观看| 亚洲毛片在线| 久久久久久亚洲精品不卡4k岛国| 国产精品不卡在线| 亚洲精品老司机| 亚洲人成在线观看一区二区| 欧美综合二区| 国产精品久久| 日韩亚洲欧美在线观看| 亚洲精品女av网站| 久久综合给合| 国产日韩精品在线| 亚洲午夜电影网| 在线亚洲自拍| 欧美日韩精品免费观看| 1000部精品久久久久久久久| 久久国产黑丝| 久久久91精品国产| 国产精品资源| 亚洲综合色网站| 西瓜成人精品人成网站| 欧美午夜片在线观看| 亚洲免费黄色| 在线亚洲欧美| 欧美日韩午夜| 日韩一级黄色大片| 一区二区国产精品| 欧美日韩一区二区三| 99riav国产精品| 一本一本久久a久久精品综合麻豆| 欧美寡妇偷汉性猛交| 亚洲高清视频在线| 亚洲片国产一区一级在线观看| 久久一区二区三区四区五区| 国产一区二区三区电影在线观看| 香蕉久久精品日日躁夜夜躁| 香蕉成人伊视频在线观看| 国产精品福利在线观看| 国产精品99久久久久久久久| 中文精品视频| 国产精品国产三级国产aⅴ无密码| 一区二区三区不卡视频在线观看 | 亚洲主播在线观看| 国产精品多人| 亚洲欧美亚洲| 久久久久久久久久久久久9999| 国产日韩欧美中文| 亚洲第一在线视频| 欧美成人久久| 亚洲裸体俱乐部裸体舞表演av| 99精品免费| 欧美午夜免费影院| 午夜日韩在线观看| 久久精品中文字幕一区| 极品中文字幕一区| 亚洲精品视频一区二区三区| 欧美日韩国产在线观看| 亚洲视频电影图片偷拍一区| 午夜久久久久| 激情久久一区| 99综合精品| 国产精品久久久久91| 性欧美在线看片a免费观看| 久久亚洲精品一区| 亚洲国产欧美日韩| 亚洲午夜精品国产| 国产欧美日韩在线播放| 亚洲国产精品成人| 欧美精品在线一区二区| 亚洲性视频h| 久久人人爽人人| 亚洲三级电影在线观看 | 欧美成人精品影院| 一本一本久久a久久精品综合妖精 一本一本久久a久久精品综合麻豆 | 国产精品xvideos88| 欧美一区二区三区免费观看| 欧美成人嫩草网站| 一区二区日韩欧美| 久久久中精品2020中文| 亚洲激情视频| 性欧美在线看片a免费观看| 韩国免费一区| 一区二区三区|亚洲午夜| 国产精品夜色7777狼人 | 亚洲乱码国产乱码精品精| 国产精品多人| 亚洲国产精品传媒在线观看 | 黄色成人片子| 亚洲一区二区三区精品在线观看| 国产亚洲成年网址在线观看| 亚洲九九九在线观看| 国产精品中文在线| 日韩午夜在线| 国产亚洲人成a一在线v站 | 久久青草久久| 一区二区三区色| 免费一区二区三区| 亚洲伊人网站| 欧美精品一区二区视频| 性欧美暴力猛交69hd| 欧美日本一区| 亚洲第一毛片| 欧美午夜片欧美片在线观看| 亚洲国产专区校园欧美| 国产精品自在在线| 中国女人久久久| 又紧又大又爽精品一区二区| 亚洲欧美日本国产专区一区|