《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于抽樣路徑的K-匿名隱私保護算法
基于抽樣路徑的K-匿名隱私保護算法
2016年電子技術應用第12期
吳 響,臧 昊,俞 嘯
徐州醫科大學 醫學信息學院,江蘇 徐州221116
摘要: K-匿名是信息隱私保護的一種常用技術,而使用K-匿名技術不可避免會造成發布數據的信息損失,因此,如何提高K-匿名化后數據集的可用性一直以來都是K-匿名隱私保護的研究重點。對此提出了一種基于抽樣路徑的局域泛化算法——SPOLG算法。該算法基于泛化格尋找信息損失較小的泛化路徑,為減少尋徑時間,引入等概率抽樣的思想,選用等概率抽樣中的系統抽樣方法進行取樣,利用樣本代替數據集在泛化格上尋找目標泛化路徑,最后在該路徑上對數據集進行泛化。同時,本算法使用局域泛化技術,能夠降低信息損失量,提高發布數據集的可用性。實驗結果證明,本算法匿名化的數據集信息損失度低,數據可用性高。
中圖分類號: TP391
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2016.12.030
中文引用格式: 吳響,臧昊,俞嘯. 基于抽樣路徑的K-匿名隱私保護算法[J].電子技術應用,2016,42(12):115-118.
英文引用格式: Wu Xiang,Zang Hao,Yu Xiao. K-anonymous privacy protection algorithm based on the sampling path[J].Application of Electronic Technique,2016,42(12):115-118.
K-anonymous privacy protection algorithm based on the sampling path
Wu Xiang,Zang Hao,Yu Xiao
School of Medical Informatics,Xuzhou Medical University,Xuzhou 221116,China
Abstract: K-anonymity is a common technique of information privacy protection. But K-anonymity must cause the information loss and how to improve the usability of anonymizing tables is the emphasis of K-anonymity. To solve the problem, this paper puts forward a kind of anonymous privacy protection algorithm based on generalized path —SPOLG algorithm. It introduces sampling with equal probabilities to find the generalized path whose information loss is little and raise the efficiency of data processing. Experimental results show that the algorithm could satisfy the anonymous requirement, at the same time, it is more efficient than Incognito algorithm to reduce the information loss of data released.
Key words : privacy preservation;path;information loss;sample;K-anonymity

0 引言

    K-匿名[1]是一種簡單而有效的隱私保護模型,實施K-匿名要考慮兩個方面:(1)確保數據發布過程中隱私不泄露;(2)發布的匿名數據具有實用性。

    基于以上兩個要求,眾多學者提出了許多匿名算法。但大體上可以分為全域泛化算法[2]和局域泛化算法[3]。相比之下,局域泛化算法不僅可以實現K-匿名,而且一定程度上降低了匿名表的信息損失,使得泛化后的數據集更具有可用性。

    然而,在局域泛化中想要尋找最優K-匿名已經被證明是NP難問題[4],如何優化K-匿名算法、盡可能提高數據的可用性成為亟待解決的問題。因此,本文提出了一種基于抽樣路徑的局域K-匿名算法——SPOLG(Sampling Path Optimization Local Generalization)算法。

    SPOLG算法將等概率抽樣的思想引入其中,選取足夠的樣本代替總體尋找泛化路徑,在已經尋找到的路徑基礎上對數據集進行局域泛化。等概率抽樣選擇的樣本能夠代表數據集總體的分布情況,通過樣本尋徑快速找到信息損失較小的泛化路徑,極大地提高了算法效率。同時,該算法采用的局域泛化技術保證了發布的數據集具有較高的可用性。

1 基本符號和定義

1.1 K-匿名相關定義

    在實現SPOLG算法的過程中,以表1為例對基于抽樣泛化路徑的K-匿名算法進行相關定義。假設數據發布者所持有的數據表為T(A1,A2,…,An),表中每條元組指明一個特定實體的相關信息,如年齡、工作、種族、性別、工作時長、工資(敏感屬性)等。

jsj3-b1.gif

jsj3-b1-x.gif

jsj3-b2.gif

1.2 SPOLG算法相關定義

    定義2  系統抽樣:將數據集中的元組按照ID排序,隨機選取一條元組作為起點,每隔一定的間隔抽取一個元組,直至樣本數量滿足事先給定的抽樣率。

    定義3  抽樣泛化路徑:以泛化格的根節點為起點,計算其子節點對樣本泛化后的信息損失量,將信息損失量最小子節點插入路徑,自底向上,直至泛化格葉子節點。

    例如:圖1中,若用<W1,R0>這個節點泛化樣本比<W0,R1>泛化樣本信息損失小,則選取<W1,R0>為路徑的第2個節點,以此類推。如<W0,R0>→<W1,R0>→<W1,R1>→<W2,R1>這條路線是一條可能的抽樣泛化路徑。

jsj3-t1.gif

    定義4  抽樣尋徑時間占比:由抽樣數據產生抽樣泛化路徑所花費的時間SP在整個算法流程中的百分比。假設整個算法花費的時間為SA,則其計算公式為:

    jsj3-gs1.gif

2 算法實現

2.1 算法實現

    本文提出的一個基于抽樣路徑的局域泛化算法——SPOLG算法,引進了等概率抽樣的思想,以系統抽樣樣本代替數據集尋找泛化路徑,具體算法如下:

輸入:輸入表T,準標識符集合QI,等價類約束k以及抽樣率α。

輸出:滿足K-匿名的數據集T″。

    (1)抽取樣本

jsj3-2.1-x1.gif

    (2)尋找抽樣泛化路徑

       函數:path(QI,T′)

       /*QI為準標識符集,T′表示抽樣數據集*/

       Begin

       ①通過QI形成泛化格G;

       ②將泛化格G的第0層節點n0作為路徑P的起點P0

       ③通過泛化格找到n1直接泛化的節點,計算這些節點泛化T′所得到的信息損失量,選出泛化數據集T′信息損失量最小的節點n2作為路徑P的第二個節點P1;

       ④重復步驟②直至到達泛化格G的頂點ni作為路徑的終點Pi得到路徑P;

       ⑤返回路徑P;

       End

    (3)匿名化數據表

jsj3-2.1-x2.gif

    移除T中滿足K-匿名的元組;

    結束循環;

       ⑤返回數據表;

    End

    由以上步驟可知,該算法主要包括系統抽樣、尋找路徑、 匿名化數據集3個主要環節,利用系統抽樣選取樣本,在已選擇的樣本中尋找信息損失較低的泛化路徑,由已選路徑對數據集進行局域泛化。從路徑起點開始,自底向上對不滿足K-匿名的元組進行泛化,直到所有元組滿足K-匿名。

2.2 算法合理性分析

    本文算法使用系統抽樣,能夠保證每個元組被抽取概率相同,通過等概率抽樣樣本快速尋找到信息損失較低的泛化路徑,使得數據集整體泛化后的信息損失較小。同時,局域泛化進一步保證了匿名后的數據集信息損失小,因此本算法是可行的。

3 實驗驗證及結果分析

3.1 實驗環境

    本文使用了UCI Machine Learning Repository中的Adults數據集作為實驗數據集,Adult數據集是由美國人口普查數據構成,采用數據集中的訓練集,并去除缺省值記錄,共有30 162條記錄,本文選取7個屬性作為準標識符屬性,包括性別、種族、婚姻狀況、教育程度、工作、國籍、年齡,各屬性預定義的泛化規則參考文獻[5]。實驗平臺配置為:Core 2.50 GHz/8 GB,Windows 7,所涉代碼均由Java實現,并在Eclipse Mars.2 Release(4.5.2)上運行。實驗數據都是在實驗運行5次所得到的實驗數據基礎上取得的平均值。

3.2 實驗結果分析

    實驗主要從信息損失度及執行時間方面對本文算法進行衡量。本實驗選用Incognito算法作為對比算法,比較了在不同個數的準標識符和不同k值條件下信息損失度和執行時間的變化。其中信息損失度采用文獻[6]的計算方法。

    元組的信息損失量:

jsj3-gs2-3.gif

3.2.1 數據抽樣分析

    尋徑時間占比通過式(1)進行計算,信息損失量依據公式(2)、(3)來度量,由圖2、圖3可知,當|QI|一定時,隨著采樣率的增加,抽樣尋徑時間占比均有大幅度上升,然而信息損失量的波動幅度較小,故可使用較小的采樣率;同時因抽樣率越大越符合數據集的分布,故要使用足夠數量的樣本代表數據集。綜合以上所述,本文以下實驗均采用1%的抽樣率。

jsj3-t2-3.gif

3.2.2 信息損失量分析

    圖4為準標識符屬性個數|QI|=7,k取5/10/15/20/25/50時,SPOLG算法和Incognito算法匿名化數據集信息損失量的比較。由圖4知,執行SPOLG算法和Incognito算法產生的信息損失量隨k值的增加而增加,這是由于k值變大時,每個等價類所含元組數量增多,數據集泛化程度變大,故IL增大。但隨k值的變大,SPOLG算法信息損失IL增加幅度較小。其原因在表3中可以清晰看出,元組前三步泛化比例達50%以上,由此可知數據集中的大部分元組都只經過一次泛化,因此泛化后的數據集信息損失IL小,隨著k值的變大IL增加較小。圖5表示當k=10時,|QL|取3/4/5/6/7,SPOLG算法與Incognito算法匿名化數據信息損失量的比較。從圖5可以看出,Incognito算法產生的信息損失IL呈明顯上升趨勢,本文算法隨著準標識符屬性的|QI|增多信息損失IL無明顯波動。表4中數據表明,|QI|增大時,前三步泛化比例均達到60%。由此可見,數據集中的大部分元組都只經過一次泛化,因此泛化后的數據集信息損失IL小,隨著|QI|的增加IL無明顯波動。綜合以上所述:本文算法在信息損失方面具有明顯的優勢,發布的數據信息失真較少,可用性高。

jsj3-t4-5.gif

jsj3-b3.gif

jsj3-b4.gif

3.2.3 時間效率分析

    圖6、圖8分別表示運行時間、k和|QI|的關系。由圖6知,當|QI|一定時,由于k值增大,泛化程度變大,產生的等價類數量變少,每個元組尋找等價類的時間大幅度降低。由圖7知,當k值一定時,隨著|QI|的增加,約束條件變多,等價類數量增多,每個元組尋找等價類的時間變大,所以本算法運行時間有所增加。綜合圖6、圖7可知,本文算法在時間效率上比Incognito算法略差,但是由于信息損失量的大幅度降低,因此本算法的綜合優勢明顯。

jsj3-t6-7.gif

4 總結

    本文提出一種基于準標識符屬性泛化路徑的K-匿名化算法——SPOLG算法,該算法采用等概率抽樣的方法快速尋找泛化路徑,在已找到泛化路徑的基礎上進行數據集的局域泛化。實驗結果表明,該算法泛化的數據表信息損失較小,可用性高。

參考文獻

[1] SWEENEY L.A model for protecting privacy[J].International Journal on Uncertainty Fuzziness and Knowledge-Based Systems,2002,10(5):557-570.

[2] SWEENY L.Achieving k-anonymity privacy protection using generalization and suppression[J].International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems:IJUFKS,2002,10(5):571-588.

[3] SWEENY L.Guaranteeing anonymity when sharing medical data:the datafly system[C].Proceedings of the 1997 AMIA Annual Fall Symposium,Journal of the American Medial Informatis,Association,AMIA,1997,4(suppl):51-55.

[4] MACHANAVAJJHALA A,GEHRKE J,KIFER D.L-diversity:Privacy beyond k-anonymity[C].Proc of the 22nd In  Conference on Data Engineering.Piscataway,NJ:IEEE,2006:24-36.

[5] LI J Y,WONG C W,FU W C,et al.Achieving k-anonymity by clustering in attribute hierarchical structures[C].Data Warehousing and Knowledge Discovery.Springer Berlin Heidelberg,2006:405-416.

[6] 任向民.基于K-匿名的隱私保護方法研究[D].哈爾濱:哈爾濱工業大學,2012.

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
亚洲人成网站精品片在线观看| 亚洲最新合集| 91久久中文| 伊人久久亚洲热| 国内外成人在线| 国产一区二区三区免费在线观看| 国产精品综合| 国产免费亚洲高清| 国产日产欧产精品推荐色 | 亚洲人成绝费网站色www| 久久精品一区四区| 亚洲高清在线| 亚洲欧洲在线视频| 日韩视频第一页| 一区二区不卡在线视频 午夜欧美不卡在 | 激情懂色av一区av二区av| 国产资源精品在线观看| 精品动漫av| 亚洲人成77777在线观看网| 最新精品在线| 99视频精品全部免费在线| 中日韩美女免费视频网站在线观看| 亚洲视频在线观看网站| 亚洲欧美成人网| 久久黄色网页| 日韩亚洲欧美高清| 亚洲一区免费看| 久久精品国产v日韩v亚洲| 久久视频在线视频| 欧美激情国产精品| 国产精品第十页| 国产一区二区三区高清播放| 伊甸园精品99久久久久久| 亚洲区在线播放| 亚洲综合精品| 久久精品国内一区二区三区| 亚洲乱码国产乱码精品精天堂| 亚洲视频一区二区免费在线观看| 欧美一区二区三区成人| 快射av在线播放一区| 欧美精品一区在线| 国产精品视频一二| **欧美日韩vr在线| 亚洲视频欧美在线| 亚洲成色777777女色窝| 欧美国产精品va在线观看| 欧美高清日韩| 国产精品免费看片| 韩国精品久久久999| 亚洲国产另类 国产精品国产免费| 夜夜嗨av一区二区三区网站四季av| 亚洲午夜一区二区三区| 久久精品国产亚洲a| 夜久久久久久| 久久久久久精| 欧美三级午夜理伦三级中文幕| 国产视频一区在线观看一区免费| 亚洲电影观看| 亚洲永久网站| 亚洲精品在线一区二区| 午夜性色一区二区三区免费视频| 久久综合久久88| 国产精品久久久久天堂| 在线观看日韩欧美| 亚洲无吗在线| 亚洲精品欧洲精品| 欧美亚洲专区| 欧美日韩国产美| 精品盗摄一区二区三区| 在线视频欧美日韩| 亚洲激情视频网站| 久久精品99久久香蕉国产色戒| 欧美日韩在线精品| 国产精品高潮呻吟久久av无限| 中文在线一区| 久久久久久久网| 国产精品s色| 亚洲国产一区二区三区青草影视 | 国产精品人成在线观看免费 | 欧美午夜精品久久久久久久| 精品999成人| 午夜精品久久久久久99热| 亚洲久久一区| 久久久精品动漫| 国产精品久久久久免费a∨大胸 | 国产精品系列在线| 99精品视频免费观看| 亚洲欧洲日韩综合二区| 午夜免费久久久久| 欧美日韩国产综合网| 在线看片成人| 亚洲成人中文| 久久亚洲欧美| 国产一区二区剧情av在线| 亚洲视频你懂的| 亚洲一级在线观看| 欧美日本不卡| 亚洲精品国精品久久99热一| 久久精品国内一区二区三区| 久久国产精品久久精品国产| 国产精品久久久免费| 一区二区三区四区精品| 一区二区三区欧美| 欧美另类videos死尸| 在线成人激情| 亚洲国产精品v| 另类亚洲自拍| 在线看不卡av| 亚洲精品一区二区三区不| 乱中年女人伦av一区二区| 国产一区在线视频| 欧美在线电影| 久久视频在线视频| 精品91视频| 亚洲日本在线观看| 欧美激情亚洲激情| 亚洲精品乱码久久久久久| 亚洲精选一区| 欧美日韩三区四区| 99视频一区二区| 午夜一区二区三区不卡视频| 国产精品欧美激情| 午夜精品亚洲| 久久在线精品| 亚洲国产高清aⅴ视频| 亚洲精品永久免费| 欧美日产一区二区三区在线观看 | 亚洲国产欧美不卡在线观看| 麻豆av一区二区三区| 在线观看欧美精品| 亚洲乱码国产乱码精品精天堂 | 亚洲国产高清在线| 欧美波霸影院| 亚洲精品小视频| 亚洲一区二区在线免费观看视频| 国产精品久在线观看| 亚洲女性裸体视频| 久久青草久久| 亚洲精品少妇| 亚洲欧美另类中文字幕| 国产日韩欧美一二三区| 久久精品一区二区三区不卡| 欧美激情黄色片| 亚洲少妇一区| 久久精品成人一区二区三区| 精品999网站| 一区二区av在线| 国产麻豆综合| 亚洲人成小说网站色在线| 欧美日韩ab| 午夜激情综合网| 欧美成人一区二区三区| 一本色道久久综合精品竹菊| 久久超碰97中文字幕| 伊人夜夜躁av伊人久久| 在线一区亚洲| 国产亚洲一区精品| 亚洲麻豆国产自偷在线| 国产精品萝li| 亚洲国产精品va在看黑人| 欧美日韩一区在线观看| 午夜久久久久久| 免费在线观看一区二区| 一区二区日韩精品| 久热国产精品视频| 亚洲少妇在线| 欧美国产激情二区三区| 亚洲欧美日韩另类| 欧美风情在线| 性欧美xxxx视频在线观看| 欧美国产欧美亚洲国产日韩mv天天看完整| 亚洲小视频在线观看| 免费日韩成人| 亚洲永久在线| 欧美精品在线一区二区| 午夜视频一区二区| 欧美精品一区二区三区蜜桃| 午夜亚洲福利| 欧美色中文字幕| 亚洲国产另类精品专区| 国产精品久久久久久久免费软件| 亚洲国产精品尤物yw在线观看| 国产精品久久久久久久第一福利| 亚洲国产精品嫩草影院| 国产精品美女| 一二三区精品| 在线精品一区二区| 久久精品动漫| 亚洲视频香蕉人妖| 欧美精品色网| 亚洲丰满少妇videoshd| 国产精品久久久久免费a∨| 日韩午夜电影| 激情丁香综合| 久久成人在线| 一本一本久久a久久精品综合麻豆 一本一本久久a久久精品牛牛影视 | 香港久久久电影| 亚洲精品在线免费| 农夫在线精品视频免费观看| 性欧美xxxx大乳国产app|