《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 基于預訓練模型的基層治理敏感實體識別方法
基于預訓練模型的基層治理敏感實體識別方法
電子技術應用
吳磊1,汪杭軍2
(1.浙江農林大學 數學與計算機科學學院,浙江 杭州 311300; 2.浙江農林大學暨陽學院 工程技術學院,浙江 諸暨 311800)
摘要: 基層治理產生的大量敏感數據可通過數據脫敏去除隱私內容,但這些數據包含較多非結構化文本數據,難以直接進行數據脫敏。因此,需要對非結構化文本數據進行命名實體識別以提取敏感數據。首先把敏感實體分為16類并對信訪文本進行標注,輸入層表示采用預訓練模型BERT,編碼層利用雙向長短時記憶網絡汲取上下文信息,解碼層通過條件隨機場模型優化序列,構建了較高精度的基層治理敏感實體識別模型。針對脫敏工作需要,改變假陰性和假陽性的loss權重,并采用敏感實體框選率輔助評價模型性能。在基層治理信訪數據集和公共數據集MSRA上進行實驗,F1值分別為88.38%和90.11%,相較于基準模型提升了4.64%和3.78%。該模型可應用于非結構化文本的敏感實體識別,識別成功率高。現有評價指標未能較好地反映敏感實體的間接推理關系,應當探索更完善的敏感實體評價體系。
中圖分類號:TP391.1 文獻標志碼:A DOI: 10.16157/j.issn.0258-7998.233942
中文引用格式: 吳磊,汪杭軍. 基于預訓練模型的基層治理敏感實體識別方法[J]. 電子技術應用,2023,49(9):109-114.
英文引用格式: Wu Lei,Wang Hangjun. Identification method of sensitive entities in grassroots governance based on pre-training models[J]. Application of Electronic Technique,2023,49(9):109-114.
Identification method of sensitive entities in grassroots governance based on pre-training models
Wu Lei1,Wang Hangjun2
(1.School of Mathematics and Computer Science, Zhejiang A&F University, Hangzhou 311300, China; 2.College of Engineering and Technology, Jiyang College of Zhejiang A&F University, Zhuji 311800, China)
Abstract: A large number of sensitive data generated by grassroots governance can be desensitized to remove private content, but these data contain more unstructured text data, which is difficult to desensitize directly. Therefore, it is necessary to identify named entities from unstructured text data to extract sensitive data.Firstly, the sensitive entities are divided into 16 categories and the letters and visits are labeled. The input layer is represented by the pre-trained model BERT, and the coding layer uses the bidirectional long short-term memory network to extract the context information. The decoding layer constructs a highly accurate identification model for sensitive entities in grassroots governance through the conditional random field model optimization sequence. According to the needs of desensitization, the loss weight of false negative and false positive is changed, and the Box Selection rate of sensitive entities is used to assist in evaluating the performance of the model.Experiments were conducted on the grassroots governance petition data set and the public data set MSRA. The F1 values were 88.38% and 90.11%, respectively, which were 4.64% and 3.78% higher than the benchmark model. The model can be applied to sensitive entity recognition of unstructured text with high recognition success rate.The existing evaluation indicators fail to better reflect the indirect reasoning relationship of sensitive entities, and a more perfect evaluation system of sensitive entities should be explored.
Key words : pre-trained language model;grassroots governance;Chinese named entity recognition;data masking

0 引言

隨著中國特色社會主義進入新時代,構建現代化的基層治理體系對鄉村振興和國家長治久安意義重大,而治理體系現代化需要信息化要素的融入[1]。基層治理數字化產生的大量數據經過數據分析與挖掘,可用于鄉、鎮、街道的信息化、智慧化建設。這些數據難以避免地會包含個人隱私信息,且在現有安全條件下這些數據采集和使用可能存在數據泄露風險[2]。數據脫敏是一種將結構化或非結構化數據中的敏感信息按照一定脫敏規則進行數據變形的技術,經過脫敏后的數據兼顧了可用性和安全性,能夠在保護隱私的前提下正常應用于各個場景。文獻[3]闡述司法領域結構化文本和非結構化文本的脫敏問題,并以匈牙利法律文件作為案例研究可能的方案。該文獻提供了一種思路,即將命名實體識別與數據脫敏聯系起來。結構化數據中敏感數據較為明確,可依據不同的數據列劃分,但非結構化數據需要將敏感數據從大量文本中識別出來,這就需要命名實體識別技術應用于基層治理文本的數據脫敏過程中。

命名實體識別[4]是一種從非結構化文本中識別出具有特定意義實體的技術,為自然語言處理中的一項基礎任務。該任務有助于關系抽取、知識圖譜等下游任務[5]。常見的實體有人名、地名、機構名等,例如在“李彥宏在北京舉辦了百度AI開發大會”識別出李彥宏(人名)、北京(地名)、百度(機構名)3個實體。命名實體識別技術的發展可劃分為3個階段:基于詞典和規則的方法、基于機器學習的方法和基于深度學習的方法[4]。除了通用語料的實體識別,還存在面向特定應用場景的領域命名實體識別(Domain Named Entity Recognition,DNER),例如醫療、生物、金融、司法、農業等領域[6]。雙向長短期記憶網絡(Bidirectional Long Short-Term Memory Networks,BiLSTM)和條件隨機場(Conditional Random Field,CRF)的組合模型由于良好的表現,在不同領域都被作為最經典的模型而廣泛使用。本文將基層治理非結構化文本的敏感詞識別任務轉換為命名實體識別任務,沿用常規的序列標注方法。

英文單詞之間有空格劃分,分詞邊界明確,以及首字母、詞根、后綴等區分信息使得命名實體識別表現較好。而中文最明顯的特點是詞界模糊,沒有分隔符來表示詞界[7]。由于中文字詞之間沒有空格分隔,中文命名實體識別若以詞粒度劃分,必須先進行分詞。分詞錯誤導致的誤差傳遞使得詞粒度識別效果差于字粒度。因此,中文命名實體識別常采用字粒度進行識別。文獻[8]綜述了中文命名實體識別的方法、難點問題和未來研究方向。文獻[9]通過在中文詞嵌入加入語義、語音信息以提升識別效果。目前,命名實體識別廣泛應用于各個領域,但在基層治理領域的相關應用較少。與通用領域數據相比,基層治理過程中的敏感信息識別實體嵌套、一詞多義和字詞錯誤等問題更為嚴重。

此外,通用領域的命名實體識別雖包含了人名、地名和機構名等部分敏感實體,但未能將身份證號、手機號和銀行卡號等數字類型的敏感實體作為數據標注,難以包含基層治理過程中產生的眾多敏感實體類型。



本文詳細內容請下載:http://m.jysgc.com/resource/share/2000005647




作者信息:

吳磊1,汪杭軍2

(1.浙江農林大學 數學與計算機科學學院,浙江 杭州 311300;2.浙江農林大學暨陽學院 工程技術學院,浙江 諸暨 311800)

微信圖片_20210517164139.jpg

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
国产精品qvod| 黄色成人av| 久久久国产精彩视频美女艺术照福利| 日韩午夜激情| 亚洲精品乱码久久久久久久久 | 亚洲成色最大综合在线| 亚洲欧美另类国产| 亚洲男人的天堂在线| 亚洲一区二区三区四区视频| 亚洲新中文字幕| 亚洲综合欧美| 性18欧美另类| 久久精品日韩欧美| 亚洲国产午夜| 日韩一级精品| 中文日韩在线| 亚洲自拍偷拍一区| 欧美一区91| 久久久久久国产精品一区| 久久精品首页| 免费永久网站黄欧美| 欧美精品免费在线| 欧美日韩中文在线观看| 欧美视频福利| 国产噜噜噜噜噜久久久久久久久| 国产精品一区一区| 国模一区二区三区| 亚洲福利视频网| 日韩视频不卡中文| 亚洲制服欧美中文字幕中文字幕| 欧美一区免费| 亚洲精品国产精品久久清纯直播| 一区二区成人精品| 亚洲欧美一区二区三区极速播放| 香蕉乱码成人久久天堂爱免费| 欧美一区二区啪啪| 玖玖在线精品| 欧美三级日韩三级国产三级| 国产精品国产三级国产普通话三级 | 黑人极品videos精品欧美裸| 亚洲福利视频网站| 在线综合亚洲欧美在线视频| 香蕉尹人综合在线观看| 亚洲日本久久| 亚洲欧美激情四射在线日 | 欧美日韩一区二区三| 国产精品综合av一区二区国产馆| 国产在线播精品第三| 亚洲激情网站| 亚洲尤物在线视频观看| 亚洲高清不卡在线| 亚洲桃花岛网站| 久久久久久噜噜噜久久久精品| 欧美激情第1页| 国产免费成人av| 亚洲欧洲另类| 欧美一级在线亚洲天堂| 99国产欧美久久久精品| 欧美一级在线视频| 欧美激情视频网站| 国产亚洲一区二区在线观看| 亚洲精品乱码久久久久久久久| 亚洲免费视频一区二区| 亚洲人成亚洲人成在线观看| 亚洲一区高清| 欧美成人有码| 国产一区二区三区网站 | 亚洲午夜性刺激影院| 亚洲高清久久久| 亚洲一区欧美二区| 蜜臀久久99精品久久久久久9| 国产精品久久久久国产精品日日| 亚洲福利视频网站| 性刺激综合网| 亚洲自拍都市欧美小说| 欧美~级网站不卡| 国产乱肥老妇国产一区二| 亚洲精品一区二区三区在线观看| 欧美制服丝袜| 午夜在线成人av| 欧美男人的天堂| 国内精品久久久久久久影视麻豆 | 亚洲精品亚洲人成人网| 欧美专区18| 性亚洲最疯狂xxxx高清| 欧美日韩国产色视频| 一区二区三区在线看| 午夜在线观看免费一区| 亚洲一区二区三区中文字幕在线| 欧美电影在线免费观看网站| 国产主播一区二区三区| 亚洲自拍偷拍色片视频| 99视频有精品| 欧美激情精品久久久久久久变态 | 午夜精品久久久久久久99黑人| 一区二区三区四区五区精品| 欧美大尺度在线| 伊人春色精品| 欧美一区二区在线免费观看| 午夜精品久久久久久久男人的天堂| 欧美日韩精品免费| 亚洲国产天堂网精品网站| 久久国产欧美精品| 久久精品国产一区二区三区免费看| 国产精品免费看| 夜夜夜久久久| 中文在线资源观看网站视频免费不卡 | 亚洲欧美日韩国产综合在线 | 亚洲欧美三级在线| 亚洲免费婷婷| 国产精品jizz在线观看美国 | 久久夜色精品国产| 国产一区二区三区高清| 性欧美1819sex性高清| 欧美一区日韩一区| 国产日韩精品一区观看| 亚洲资源av| 午夜亚洲视频| 国产精品资源在线观看| 亚洲欧美日韩国产精品| 午夜视频一区在线观看| 国产精品日韩| 欧美一级精品大片| 久久福利毛片| 黄色在线成人| 亚洲精品在线观| 欧美日韩hd| 一区二区三区四区国产精品| 亚洲影院免费观看| 国产精品视频精品| 香蕉国产精品偷在线观看不卡| 久久久久久**毛片大全| 国产主播在线一区| 亚洲国产精品久久久久婷婷884| 毛片av中文字幕一区二区| 亚洲国产精品一区制服丝袜| 亚洲精品亚洲人成人网| 欧美日韩一级片在线观看| 亚洲免费播放| 性久久久久久久| 国产一区二区三区四区在线观看 | 欧美中在线观看| 影音先锋久久| 一区二区三区国产| 国产精品视频精品| 久久黄色影院| 欧美激情a∨在线视频播放| 一本大道久久精品懂色aⅴ| 午夜亚洲视频| 悠悠资源网亚洲青| 一区二区三区久久久| 国产精品一区三区| 最新亚洲激情| 国产精品超碰97尤物18| 欧美一级淫片播放口| 欧美成人免费网站| 亚洲图片自拍偷拍| 久久久国产午夜精品| 亚洲人成亚洲人成在线观看| 亚洲欧美国产另类| 尤物99国产成人精品视频| 亚洲视频第一页| 国产欧美一区二区视频| 亚洲韩日在线| 国产精品久久久999| 久久国产主播| 欧美午夜无遮挡| 亚洲国产高清自拍| 欧美色大人视频| 久久国产精品黑丝| 欧美日韩你懂的| 久久精品女人天堂| 国产精品爱久久久久久久| 亚洲大胆人体在线| 欧美午夜大胆人体| 久久精品女人| 国产精品久久久久久av福利软件| 亚洲第一精品夜夜躁人人爽| 欧美亚州韩日在线看免费版国语版| 欧美中文字幕在线观看| 欧美日韩在线一二三| 亚洲国产精品成人久久综合一区| 欧美日韩一区二区国产| 久久国产黑丝| 国产精品乱码人人做人人爱| 最新国产成人av网站网址麻豆| 国产精品视屏| 9国产精品视频| 好看的日韩视频| 午夜视频一区二区| 日韩视频―中文字幕| 久久久久久久性| 亚洲天堂偷拍| 欧美精品性视频| 亚洲高清网站| 国产农村妇女精品| 亚洲手机视频| 亚洲国产女人aaa毛片在线| 久久久福利视频| 亚洲欧美日韩国产另类专区|