《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于半監督學習的多示例多標簽改進算法
基于半監督學習的多示例多標簽改進算法
2019年電子技術應用第7期
李村合1,張振凱1,朱洪波2
1.中國石油大學(華東) 計算機與通信工程學院,山東 青島266580; 2.上海諾基亞貝爾股份有限公司青島分公司fn部門,山東 青島266100
摘要: 多示例多標簽學習框架是一種針對解決多義性問題而提出的新型機器學習框架,在多示例多標簽學習框架中,一個對象是用一組示例集合來表示,并且和一組類別標簽相關聯。E-MIMLSVM+算法是多示例多標簽學習框架中利用退化思想的經典分類算法,針對其無法利用無標簽樣本進行學習從而造成泛化能力差等問題,使用半監督支持向量機對該算法進行改進。改進后的算法可以利用少量有標簽樣本和大量沒有標簽的樣本進行學習,有助于發現樣本集內部隱藏的結構信息,了解樣本集的真實分布情況。通過對比實驗可以看出,改進后的算法有效提高了分類器的泛化性能。
中圖分類號: TP181
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.190243
中文引用格式: 李村合,張振凱,朱洪波. 基于半監督學習的多示例多標簽改進算法[J].電子技術應用,2019,45(7):32-35,39.
英文引用格式: Li Cunhe,Zhang Zhenkai,Zhu Hongbo. A multi-instance multi-label improved algorithm based on semi-supervised learning[J]. Application of Electronic Technique,2019,45(7):32-35,39.
A multi-instance multi-label improved algorithm based on semi-supervised learning
Li Cunhe1,Zhang Zhenkai1,Zhu Hongbo2
1.School of Computer and Communication Engineering,China University of Petroleum,Qingdao 266580,China; 2.Shanghai Nokia Bell Co.,Ltd.,Qingdao Branch fn Department,Qingdao 266100,China
Abstract: The multi-instance multi-label learning framework is a new machine learning framework for solving ambiguity problems. In the multi-instance multi-label learning framework, an object is represented by a set of examples and is associated with a set of category labels. The E-MIMLSVM+ algorithm is a classical classification algorithm that uses degenerate ideas in the multi-instance multi-label learning framework. It can′t use unlabeled samples to learn and cause poor generalization ability. This paper uses semi-supervised support vector machine to implement the algorithm. The improved algorithm can use a small number of labeled samples and a large number of unlabeled samples to learn, which helps to discover the hidden structure information inside the sample set and understand the true distribution of the sample set. It can be seen from the comparison experiment that the improved algorithm effectively improve the generalization performance of the classifier.
Key words : machine learning;multi-instance multi-label;semi-supervised;SVM;generalization performance

0 引言

    對于監督學習,通過訓練集中已知類樣本學習構造一個判決邊界,并設定臨閾值,來實現對未知樣本的預測[1]。通常使用一個示例描述單個對象并與其類別相關聯。但是,實際上每個對象都可能不止有一個語義,如一幅含有獅子、大象、草原的圖,可以將其歸為“大象”類別,也可以將其歸為“獅子”類別,甚至可以因為動物和草原的存在將其歸為“非洲”的類別。因此,當僅通過一個示例來表示一個對象時,顯然難以獲得期望的效果。為了處理這個難題,相關學者提出了多示例多標簽(Multi-Instance Multi-Label,MIML)[2]機器學習模型,最大特點是:在該框架中是用一組示例集合來表示一個對象,同時該對象與多個標簽相關聯。對于真實世界中對象的表示能力更強,其他的機器學習框架可以看作是多示例多標簽框架的一種簡化表示形式。

    支持向量機(Support Vector Machine,SVM)是建立在統計學習理論基礎上的一種機器學習方法,其泛化準確率高,計算效率高,結果易解釋[3]。傳統的SVM多為監督學習,然而在實際中,有標簽的樣本數據是稀少的,無標簽的樣本數據的獲取相對較易。半監督學習即通過將無標簽樣本數據加入訓練集中,對其學習建模來增強模型的泛化性能。因此,出現了將半監督學習和SVM方法進行結合來訓練分類函數的研究。

1 相關工作

    傳統監督學習是一種單示例單標記學習框架。學習任務是學得一個映射函數:f:X→Y。

    在多示例學習問題中[2],用包含一組示例的集合來表示訓練集中的每個對象,同時將該對象歸屬于單個類別標簽中。該模型主要學習一個分類器(即映射函數fMIL:2x→Y)來標記未知的示例包的標簽。代表性的多示例學習算法有多示例最近鄰算法Citation-kNN、多示例神經網絡算法BP-MIP等[4]

    在多標簽學習問題中[2],對象僅由單個示例表示,并屬于一組標簽。該框架模型的任務是學習fMIL:x→2Y函數的映射,然后使用此映射來預測未知集合中的標簽類別。代表性的多標簽學習算法有二元相關(BR)算法和分類器鏈(CC)算法[5]等。

rgzn-1-x1.gif

    在MIML框架下,有兩種解決問題的方式,一種是應用退化的方式,以多示例學習或多標簽學習作為橋梁,對MIML問題進行退化,如MIMLSVM[6]和MIMLSVM+[7]等。但是在退化時,有時標簽間的關聯信息會被忽視,進而影響到實際的分類效果。為了避免信息丟失,另一種思路是改造算法找到適應MIML框架的機器學習算法。代表性算法主要有D-MIMLSVM算法、M3MIML算法[8]等。

2 改進的算法

2.1 E-MIMLSVM+算法

rgzn-gs1.gif

rgzn-gs2-6.gif

2.2 E-MIMLSVM+算法中引入半監督

    半監督學習即把大量無標記的數據和少量有標記的數據一塊訓練,構建起泛化性能強的分類器,有標簽的數據和無標簽的數據的空間結構分布相似,應用無標簽的樣本來訓練,有助于提高訓練出模型的性能。

    半監督SVM屬于半監督領域中的學習算法,它基于SVM和半監督學習的聚類假設,嘗試尋找能將兩類有標簽樣本分隔,并且通過穿過低密度區域來劃分超平面,如此一來就能同時利用有標簽的數據和無標簽的數據。半監督SVM中最經典的是TSVM和S3VM[13]。通過文獻[13]對類中心的有效性分析可以獲得基于類中心估計的半監督支持向量機meanS3VM。它只需要最大化兩個類的類別平均值,來代替之前對所有的未標記樣本進行標記的方式。這很大程度上提升了半監督SVM的求解速度。

    假設存在有標記的樣本集Dl={(x1,y1),(x2,y2),…,(xi,yi)},未標記的樣本集Du={xl+1,xl+2,…,xl+u},meanS3VM算法[13]可形式化定義為:

rgzn-gs7.gif

    通過分析可以得到,式(7)只需要估計無標簽樣本的類別平均值即可。與S3VM相比,meanS3VM避免了對所有未標記樣本類別標簽的估計。實際上,meanS3VM算法最大化了兩個類的類別平均值。由于meanS3VM算法大量減少了約束條件的個數,因此,對半監督SVM的求解速度更快了,從而使得半監督SVM的時間開銷變少。可以證明[14],當給定樣本集可分時,meanS3VM的損失函數與標準SVM一致;當給定樣本集不可分時,meanS3VM的損失函數不會超過標準支持向量機hinge損失的兩倍。

    為了充分利用未標記樣本的空間分布信息,來進一步提升分類器的泛化性能,在本文中,使用半監督SVM算法——meanS3VM對E-MIMLSVM+算法進行了改進。由于meanS3VM算法適用于傳統的半監督學習問題,本文改進了meanS3VM算法中核函數的計算方式,用多示例核函數進行替代。使得meanS3VM算法能夠適用于多示例多標簽學習中,從而得到改進算法SE-MIMLSVM+。令給定有標簽樣本集S={(Xi,Yi)|1≤i≤l},無標簽樣本集U={(Xi,Yi)|l+1≤i≤l+μ},測試樣本集T={(Xi,Yi)|1≤i≤M},則SE-MIMLSVM+算法的優化問題變為:

    rgzn-gs8.gif

其中,ξiy和ρ分別代表的是有標簽數據和無標簽數據的松弛變量,W0反映了不同任務間的共同特征,vy反映了不同任務間的區別,參數μ用于協調不同任務間的相似程度。從式(4)建立的模型可以看出,每一個分類模型fy都有一個共同的參數w0,也就是說分類模型假設每一個標簽相互都是有關聯關系的。但是實際的情況是,并非所有標簽都存在關聯關系。因此可以先在標簽空間中聚類,從而將標簽空間劃分成許多具有標簽相關性的子集,每一個示例包和標簽之間的標簽指示陣表示為Y。為了衡量標簽之間的聯系信息,在聚類的過程中使用的是Y列上的皮爾遜相關系數。

2.3 改進算法步驟

    因為ω和d的雙線性約束,所以式(7)是一個非凸優化模型。可以使用凸松弛算法或交替優化算法得到未標記樣本估計好的類中心然后帶入式(7)將其變為凸優化問題,使用凸優化軟件包求解。這里選擇使用求解速度更快的交替優化算法來處理相關問題。

    SE-MIMLSVM+的算法流程如下:

rgzn-gs9.gif

    ①使用有標簽的樣本Sk訓練SVM分類器。

    ②使用訓練出來的SVM分類器對未標記的樣本集U進行預測,利用預測值初始化d的值。

    ③在本輪迭代中,固定d的取值來優化變量α,然后再固定α的值來優化d的值。

    ④重復步驟③的迭代過程,直至達到訓練所指定的迭代次數,得到未標記樣本集U的類別平均值估計。

    ⑤根據得到的類別估計平均值和有標簽樣本集求解式(8)得到一個SVM分類器。

    (5)對于未知標簽的樣本集X,使用T-Criterion[15]準則的最終預測函數為:

    rgzn-gs10.gif

3 實驗

3.1 實驗設置

    在本文中,用半監督算法meanS3VM來優化改進E-MIMLSVM+算法,并將對比MIMLSVM+、MIMLSVM、E-MIMLSVM+這3個MIML算法,以此來驗證改進算法的分類性能。其中3個對比算法中的參數分別根據文獻[6]-[7]中的實驗設置為最優。根據參考文獻[13]將meanS3VM算法中的參數調整為最優。實驗同樣應用十折交叉法,將數據集分成訓練集和測試集兩份,各1 000個數據。實驗期間,從訓練集中無規則的選擇100個樣本作為有標記的訓練集,并且剩下的900個作為無標記的訓練集。由于本實驗對比的3個多示例多標簽算法無法訓練未標記的樣本,因此每次隨機抽取1 000個樣本用作訓練集,其余樣本用作測試集。反復10次實驗以計算平均值以及方差。

    實驗使用周志華等提供的多示例多標簽數據集,分為場景集和文本集[6],為了公平起見,算法均使用相同的樣本集和測試集。第一部分為場景樣本集,共有樣本圖像2 000個,數據集中的樣本均被標記了一組類別標簽。所有可能的類標簽為沙漠、山脈、海洋、日落和樹木,其中,屬于一個以上的類(如海+日落)的樣本的數目約占數據集的22%,許多組合類(如山+日落+樹)約占0.75%,單個標簽的樣本數目約占77%。平均而言,每個示例都與1.24個類標簽相關聯。每幅圖片通過SBN方法[16]用包含9個示例的示例包進行表示,每個示例為15維的特征向量。

    第二個樣本集是文本樣本集,這個樣本集來源于被廣泛研究的Reuters-21578[17]。該樣本集分為7個類別標簽,共2 000個樣本文檔。原始的數據集在刪除標簽集或主文本為空的文檔后保留8 866了個文檔,之后經過隨機刪除只有一個類標簽的文檔后,得到實驗所用的含有2 000個樣本文檔的文本數據集。在該數據集中,每個文檔平均所屬于1.15±0.37個標簽,屬于多個標簽的文檔占比約為15%。通過使用滑動窗口[18]技術將文檔表示為一組示例。每個包中包括一組243維的特征向量,每一個向量代表了這篇文檔的某一個部分。每一個包最少包含2個示例,最多包含26個示例,平均每一個包中含有3.56±2.71個示例。本實驗中使用的場景樣本集和文本樣本集,其結構特征如表1所示。

rgzn-b1.gif

3.2 實驗結果

    本實驗選取多示例多標簽領域的5個評價指標[2]:Hamming loss、one-error、coverage、ranking loss和average precision。前4項評價指標的值越小,說明算法的分類效果越好;最后一項評價指標的值越大,說明分類效果越好。表2和表3分別顯示了各個算法在兩個集上的實驗表現。表中“±”前面的值為實驗進行十折交叉驗證后,對5個評價指標的計算取值,“±”后面的值是計算得到的方差。

rgzn-b2.gif

rgzn-b3.gif

    從表中可以看出,SE-MIMLSVM+算法前4項評價指標的值都是最小的,而average precision的值則是最大的,這說明改進算法在場景樣本集和文本樣本集上取得了優于其他多示例多標簽算法的分類效果。

4 結論

    本文討論了基于退化策略并且使用SVM分類的多示例多標簽算法E-MIMLSVM+。通過在E-MIMLSVM+算法中引入利用未標記樣本學習并且求解速度較快的半監督支持向量機meanS3VM,對原始算法進行了改進。與其他多示例多標簽算法相比,改進算法提高了分類準確率,增強了分類器的泛化能力。

參考文獻

[1] 李斌,李麗娟.基于改進TSVM的未知網絡應用識別算法[J].電子技術應用,2016,42(9):95-98.

[2] ZHOU Z H,ZHANG M L,HUANG S J,et al.Multi-instance multi-label learning[J].Artificial Intelligence,2012,176(1):2291-2320.

[3] 張磊,殷夢婕,肖超恩,等.基于優化型支持向量機算法的硬件木馬監測[J].電子技術應用,2018,44(11):17-20.

[4] 張苗.基于多示例學習的圖像檢索算法研究[D].合肥:中國科學技術大學,2017.

[5] READ J,PFAHRINGER B,HOLMES G,et al.Classifier chains for multi-label classification[J].Machine Learning,2011,85(3):333.

[6] ZHOU Z H,ZHANG M L.Multi-instance multi-label learning with application to scene classification[A].Advances in Neural Information Processing Systems 19[C].MIT Press,2007:1609-1616.

[7] LI Y X,JI S W,KUMAR S,et al.Drosophila gene expression pattern annotation through multi-instance multi-label learning[J].IEEE/ACM Transactions on Computational Biology and Bionformatics,2012,9(1):98-112.

[8] ZHANG M L,ZHOU Z H.M3MIML:a maximum margin method for multi-instance multi-label learning[C].Eighth IEEE International Conference on Data Mining.IEEE,2008:688-697.

[9] 周志華.機器學習[M].北京:清華大學出版社,2016.

[10] EVGENIOU T,PONTIL M.Regularized multi-task learning[A].Tenth ACM Sigkdd International Conference on Knowledge Discovery & Data Mining[C].ACM,2004:109-117.

[11] ZHANG J,GHAHRAMANI Z,YANG Y.Flexible latent variable models for multi-task learning[J].Machine Learning,2008,73(3):221-242.

[12] EVGENIOU T,MICCHELLI C A,PONTIL M.Learning multiple tasks with Kernel methods[J].Machine Learning Research,2005,6(4):615-637.

[13] LI Y F,KWOK J T,ZHOU Z H.Semi-supervised learning using label mean[A].International Conference on Machine Learning[C].ACM,2009:633-640.

[14] 李宇峰.半監督支持向量機學習方法的研究[D].南京:南京大學,2013.

[15] BOUTELL M R,LUO J,BROWN C.M.Learning multilabel scene classification[J].Pattern Recognition,2004,37(9):1757-1771.

[16] MARON O,RATAN A L.Multiple-instance learning for natural scene classification[A].Proceedings of the 15th International Conference on Machine Learning[C].Morgan Kaufmann Publishers Inc,1998:341-349.

[17] SEBASTIANI F.Machine learning in automated text categorization[J].Computer Science,2015,34(1):1-47.

[18] ANDREWS S,TSOCHANTARIDIS I,HOFMANN T.Support vector machines for multiple-instance learning[A].Advances in Neural Information Processing Systems[C].ResearchGate,2003:561-568.



作者信息:

李村合1,張振凱1,朱洪波2

(1.中國石油大學(華東) 計算機與通信工程學院,山東 青島266580;

2.上海諾基亞貝爾股份有限公司青島分公司fn部門,山東 青島266100)

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
小黄鸭精品aⅴ导航网站入口| 日韩午夜视频在线观看| 亚洲福利视频一区二区| 国产亚洲一级| 国产无遮挡一区二区三区毛片日本| 欧美视频一区二| 欧美精品18+| 欧美高清在线| 欧美高清视频一二三区| 免费看的黄色欧美网站| 开元免费观看欧美电视剧网站| 久久国产日韩欧美| 久久国产主播精品| 久久精品国产成人| 久久久国产精品一区| 久久国产精品久久w女人spa| 久久超碰97人人做人人爱| 欧美一区二区在线观看| 先锋影音一区二区三区| 午夜精品短视频| 欧美一区二区三区免费观看视频| 午夜宅男欧美| 久久精品99国产精品| 久久精品国产69国产精品亚洲| 久久精品麻豆| 老司机午夜精品视频| 欧美~级网站不卡| 欧美黄色成人网| 欧美日韩一区二区免费视频| 欧美视频一区二区三区在线观看| 欧美视频在线观看免费| 国产精品色婷婷| 国产日韩欧美亚洲一区| 黄色精品一二区| 亚洲国产一区二区三区a毛片 | 欧美一级在线播放| 久久99在线观看| 91久久国产综合久久| 日韩一级黄色片| 亚洲一区二区三| 欧美亚洲三级| 久久在线免费| 欧美精品久久久久a| 国产精品久久午夜| 国模套图日韩精品一区二区| 亚洲国产婷婷综合在线精品 | 久久aⅴ国产紧身牛仔裤| 亚洲黄色一区二区三区| 99精品久久免费看蜜臀剧情介绍| 亚洲图片欧洲图片av| 欧美在线免费视屏| 欧美大片在线看| 国产精品日本精品| 伊人久久大香线蕉av超碰演员| 亚洲国产日韩欧美| 亚洲一区二区三区涩| 久久精品二区| 亚洲视屏一区| 久久久蜜桃精品 | 欧美区日韩区| 国产欧美91| 亚洲黄色一区| 亚洲欧美日韩一区二区在线| 亚洲国产精品成人精品| 亚洲视频网站在线观看| 久久精品国产999大香线蕉| 欧美大片在线观看一区| 国产精品日韩在线观看| 亚洲高清二区| 亚洲欧美日韩国产| 日韩午夜精品视频| 久久精品视频导航| 欧美日韩日本国产亚洲在线| 国产真实乱偷精品视频免| 亚洲美洲欧洲综合国产一区| 性亚洲最疯狂xxxx高清| 一区二区三区视频在线观看| 久久麻豆一区二区| 国产精品豆花视频| 亚洲经典一区| 亚洲第一区在线| 亚洲欧美视频一区| 欧美激情第六页| 国产亚洲欧美日韩一区二区| 日韩一级精品| 91久久国产综合久久| 欧美中文字幕第一页| 欧美午夜a级限制福利片| 在线免费日韩片| 性感少妇一区| 亚洲主播在线播放| 欧美精品国产| 在线观看精品一区| 校园激情久久| 先锋影音久久| 欧美午夜一区二区| 91久久国产综合久久蜜月精品| 欧美主播一区二区三区美女 久久精品人 | 久久成人国产| 欧美香蕉大胸在线视频观看| 91久久精品一区| 亚洲第一中文字幕| 欧美一区亚洲| 国产精品日韩久久久| 日韩视频免费看| 亚洲美女少妇无套啪啪呻吟| 久久久无码精品亚洲日韩按摩| 国产精品福利网站| 夜夜爽av福利精品导航| 亚洲伦理在线| 欧美激情一区| 91久久久在线| 亚洲美女免费精品视频在线观看| 免费短视频成人日韩| 一区一区视频| 亚洲国产一区视频| 毛片精品免费在线观看| 激情综合自拍| 亚洲国产91| 麻豆免费精品视频| 一区二区视频欧美| 亚洲国产精品久久久久久女王| 久久久久综合网| 一区在线观看视频| 亚洲激情一区二区三区| 免费试看一区| 亚洲国产日韩欧美在线99| 亚洲精品女人| 欧美精品二区三区四区免费看视频| 亚洲国产欧美国产综合一区 | 欧美黄色网络| 亚洲精品色图| 亚洲天堂免费观看| 国产精品国色综合久久| 亚洲一级黄色| 欧美一区国产一区| 国产主播一区二区三区| 久久精品国产视频| 美国成人直播| 亚洲全黄一级网站| 亚洲午夜激情免费视频| 国产精品乱码一区二区三区| 午夜精品理论片| 久久综合伊人77777麻豆| 在线观看亚洲视频| aaa亚洲精品一二三区| 国产精品第一区| 欧美一区观看| 欧美激情第10页| 亚洲天堂av在线免费| 欧美一区影院| 在线成人h网| 一区二区电影免费观看| 国产精品香蕉在线观看| 性欧美video另类hd性玩具| 老牛嫩草一区二区三区日本| 亚洲激情视频网| 午夜国产精品影院在线观看| 国产亚洲精品久久久久动| 亚洲国产高清一区| 欧美日本一区二区三区| 亚洲一区二区三区中文字幕在线 | 亚洲精品国产精品乱码不99按摩 | 最新成人av网站| 欧美三级电影精品| 欧美一区二区观看视频| 欧美a级片一区| 这里只有精品电影| 久久久最新网址| 99re6这里只有精品视频在线观看| 欧美亚洲三区| 亚洲韩国青草视频| 欧美一二区视频| 亚洲国产日韩欧美| 欧美亚洲免费电影| 亚洲国产影院| 欧美在线播放一区| 亚洲精品乱码久久久久久日本蜜臀 | 国产午夜精品久久久| 亚洲精品在线视频观看| 国产精品三区www17con| 亚洲精品一级| 国产精品影视天天线| 日韩亚洲视频| 国模吧视频一区| 亚洲一区二区在线视频| 伊人久久久大香线蕉综合直播| 亚洲一区二区在线播放| 亚洲电影欧美电影有声小说| 午夜视频在线观看一区| 亚洲东热激情| 久久超碰97人人做人人爱| 日韩一级视频免费观看在线| 久久久久久婷| 中文欧美日韩| 欧美激情一区二区三级高清视频| 亚洲欧美日韩在线一区| 欧美另类久久久品| 亚洲第一页在线| 国产精品中文字幕欧美|