精品在线视频一区,国产精品一区二区三区www,精品欧美aⅴ在线网站

基于均值近鄰的樣本選擇算法

2014年微型機與應用第17期

楊立

運城學院公共計算機教學部，山西運城 044000

摘要： 提出了一個基于均值近鄰的樣本選擇算法，并且對CMU-PIE人臉數據庫數據進行了樣本選擇，提取關鍵數據，結合神經網絡算法進行了分類實驗。實驗結果證明，與傳統方法相比，該方法在保持了一定的準確率的前提下，能夠有效地減少樣本集中的冗余信息，同時在時間復雜度方面也有了一定的提升。

關鍵詞： 樣本選擇神經網絡均值近鄰人臉識別

Abstract：

Key words :

　　摘要：提出了一個基于均值近鄰的樣本選擇算法，并且對CMU-PIE人臉數據庫數據進行了樣本選擇，提取關鍵數據，結合神經網絡算法進行了分類實驗。實驗結果證明，與傳統方法相比，該方法在保持了一定的準確率的前提下，能夠有效地減少樣本集中的冗余信息，同時在時間復雜度方面也有了一定的提升。

　　關鍵詞：樣本選擇；神經網絡；均值近鄰；人臉識別

　　人工神經網絡ANN(Artificial Neural Network)[1]，簡稱神經網絡NN（Neural Network），是一種模仿生物神經網絡的結構和功能的數學模型或計算模型。神經網絡是由大量神經元相互連接,通過模仿人腦或生物結構及其功能進行信息并行處理和非線性轉換的復雜網絡系統。隨著機器學習的快速發展，如今神經網絡的應用已經滲透到眾多領域中，例如在智能控制、信號處理、模式識別和系統辨識等領域都得到了廣泛的應用與發展。神經網絡技術能夠較好地實現人類對知識的存儲以及對信息處理的能力，對所需解決的問題進行從記憶到聯想再到推理的過程，因此可以較好地解決人臉識別中的分類問題。然而對于傳統的神經網絡而言，其在實際的應用過程中往往存在過擬合以及局部最優等缺點，因此也限制了神經網絡更廣泛的應用。

　　樣本[2]在神經網絡的學習中占有非常重要的地位，網絡的性能與訓練樣本的選擇是密切相關的。樣本集是否具有代表性，是否具有合理性，直接決定了網絡的學習效果。通常人們直觀地認為訓練數據越多，一般越能準確反映數據內在之間的規律，然而在實際問題中，樣本數據的采集與整理總會受到各種客觀因素的制約，使得樣本不一定能達到預計的效果。人們往往普遍把注意力放在大規模樣本庫的建立上，想要盡可能多地增加樣本的數量，但是卻忽視了當樣本數據過大的情況下，訓練集中的樣本會出現冗余的問題。而這些冗余的數據有可能會讓神經網絡產生局部最優的問題，從而影響到識別率。

　　因此如果在神經網絡學習之前，對學習數據進行合理科學的樣本選擇，剔除無關樣本，從而能夠提高學習算法的效率與最終的識別率。

1 樣本選擇算法

　　1.1 傳統樣本選擇的算法

　　關于樣本選擇的方法，當下有很多種選擇。傳統的樣本選擇的方法主要分為以下幾種[3]。

　　⑴采用簡單的隨機選擇的方法來選擇樣本數據，對于這種方法而言，隨機的分類存在強烈的不確定性，因此不可能保證最終生成的樣本具有代表性。這種方法一般只用于樣本數量過于龐大不利于其他方法操作的情況。

　　⑵采用人工選擇的方法來選擇樣本數據，該方法存在個人的主觀性以及不穩定性，特別是對于大型數據而言，該方法基本起不到任何作用。這種情況一般用于樣本數較少且比較直觀的數據，用于直接剔除無關數據。

　　⑶另外，就是通過一個優化算法從眾多備選子集中搜索訓練集的最佳或近似最佳代表子集。優化算法每搜索到一個訓練集的代表性子集就把它傳遞給分類器，分類器再返回用該子集作為訓練集，并將該分類的結果回饋給優化算法[4]。重復這一過程，直到樣本選擇模型找到一個近似最優樣本子集。最后便使用該子集作為訓練樣本。通常優化算法可以選擇遺傳算法、模擬退火算法等，而這種方法的優勢是數據準確，但同時耗時較大。如果可以在可接受范圍內損失一定的精度但是能大幅減小消耗時間，將是一種更好的方法。

　　1.2 基于均值近鄰的樣本選擇算法

　　基于均值近鄰的樣本選擇算法NMSS（Neighbor Mean Sample Selection）就是在待選擇的訓練樣本中，計算樣本的均值，將距離該均值最近的樣本作為選中樣本。再將距離該選中樣本閾值范圍內的樣本都移動到一個空集記為待定集，并在原訓練集中刪除這些樣本。通過不斷迭代重新選擇新的選中樣本，直到訓練集中的樣本數滿足預先設定的所需個數或再無閾值內可移動的樣本。如若最終訓練集中的樣本數小于設定個數，則將待定集當作樣本集繼續迭代選擇，最終所有樣本集的集合就是選中的樣本。

　　1.2.1 巴氏距離

　　樣本之間的關系的量化可以通過類似于信息熵的指標來作為衡量的標準，例如Golub T R等人采用“信噪比”來衡量基因貢獻的度量[5]，對此，Golub T R等人對信噪比的定義如下：

　　其中d代表信噪比，μ1和μ2分別代表兩個樣本在樣本集中表達水平的均值，σ1和σ2為這兩個樣本在樣本集中表達水平的標準差。

　　但對于這種情況，當兩個樣本的均值相等時候，標準差方面的差異就不能被表現出來。因此，選用巴氏距離作為衡量的標準[6]。在此，巴氏距離的定義如下：

　　由式(2)可知，巴氏距離既考慮到樣本中的均值，也考慮到樣本的方差分布，可以更全面的考慮樣本之間的關系。因此NMSS算法選擇用巴氏距離作為樣本之間的衡量標準。

　　1.2.2 基于均值近鄰的樣本選擇算法

　　綜上所述，NMSS算法的流程如圖1所示。

　　⑴初始化。設定所需選擇的樣本個數為 1+++.png ，選擇閾值為 1+.png ，初始的樣本均值向量為μ0，初始的樣本集為 1++++.png ，初始的待定集為空集 1++.png 。

　　⑵計算樣本集中樣本與μ0的巴式距離 2+.png ，并在樣本集中搜索最小距離Bmin，將其所對應的第k個樣本記為選中樣本XS。計算選中樣本與其余p-1個樣本的巴式距離 2++.png ，若，則將相對應的樣本由樣本集S中移動到待定集G。

　　⑶如果無任何樣本使得，或待定集G中的樣本數q＜0，則退出。否則重復第二步。

　　1.2.3 傳統方法與NMSS算法

　　與傳統的通過最優解的樣本選擇方法相比較，NMSS算法以樣本之間的巴氏距離作為衡量的標準，從近鄰樣本中選取少量樣本當作一組代表樣本。而傳統的通過最優解的樣本選擇方法則需要通過算法計算最優解并帶回到分類器中進行反復迭代測試之后才能找到滿足要求的樣本集。因此在可接受的精度的損失情況下，NMSS算法能夠大幅提高算法效率并減少耗時。

2 實驗結果分析

　　人臉識別已經逐漸成為模式識別研究中的一個重大熱點[7]，如今有很多用于人臉識別的相關算法，如何能夠提高人臉識別的效率與準確率成為人們更加熱衷的研究點。

　　本文在此通過人臉識別的實驗來驗證以上算法提出對識別效率與準確率的提高作用。在本次實驗中，選擇由美國卡耐基梅隆大學創建的CMU-PIE人臉數據庫。該數據庫包含68位志愿者的41 368張面部圖像。在此本文選擇其中的10位志愿者的圖像，每個人包含340張不同姿態、不同光照和角度的圖像。存為PGM格式，尺寸為200×200。

　　實驗是在CPU為 Core 2 2.26 GHz，內存為 4 GB DDR2的PC機上進行的。將樣本圖片尺寸壓縮為32×32，并轉存為MAT格式。再通過PCA算法[8]進行降維，提取特征數據。最后神經網絡部分是通過Matlab的神經網絡工具箱來實現的。

　　實驗中，將CMU-PIE人臉數據庫選用的3 400張圖像依據每人選取170張隨機分為兩組，每組共計1 700張，其中一組作為訓練樣本，另一組作為測試樣本。

　　首先按照本文之前所描述的NMSS算法，通過計算得到一個選中樣本，然后將實驗設置的樣本選擇個數從每類別第2個開始，并逐次增加。對于不同的選樣個數，分別統計選樣率，以及測試識別率和測試時間。當測試識別率趨于穩定且達到較高數值時，停止實驗。最終匯總以上實驗數據，實驗結果如表 1所示。

　　其中選樣率=（被選中的訓練樣本個數/訓練樣本的總數） 100%；識別率=（測試樣本中識別正確的樣本個數/測試樣本的總數） 100%。實驗的數據是通過10次實驗數據，進行均值計算而得到的。

　　通過表 1 中所顯示的實驗結果可以得到，隨著樣本選擇個數的增加，識別率是有一定的提高的。當選擇的學習樣本數達到12個樣本的時候，測試識別率就可以達到100%，并形成一個穩定狀態。與總計的170個樣本相比，選樣率只占了7.1%，直選用了較少的樣本，在此不難看出，樣本選擇的效率還是很高的。相比較通過實驗所得的最小樣本數，選樣個數和識別率都很接近，因此只要選擇適當的閾值，就可以直接得出適合的樣本個數。

　　除此之外，在未使用樣本選擇的情況下進行實驗，即學習樣本為1 700個的完整樣本集，并通過以上實驗所得的結果，再選用隨機方式選擇了120個訓練樣本并且選用了相同的1 700個測試樣本，得到的對比數據如表2所示。

　　通過表 2 中所顯示的實驗對比結果可以得到，隨機方式選擇樣本所得到的結果在識別率方面差強人意。而完整樣本所得的結果在耗時上遠大于本文方法所需時間，而且也需要更多的存儲空間。對于NMSS方法，樣本選擇的耗時較小僅為0.501 s，并且識別率能達到100%。

　　因此通過表1和表2的實驗結果可以證明本文所提出的基于均值近鄰的樣本選擇算法用于學習算法之前的樣本選擇，是有較好的效果的。

　　同時，如何設省略用戶設定的閾值以減少個人主觀因素對算法的影響，增加自適應的相關系數，以及對樣本選擇的評價是下一步將要做的工作。

　　本文考慮到在對于大量數據進行分類時，首先進行一種在犧牲一定精度的情況下的快速樣本選擇，因而提出了基于均值近鄰的樣本選擇算法。并且通過CMU-PIE人臉數據庫的實驗進行了驗證，其可以有效地提高訓練速度，節省空間，同時保證較高的識別率。該方法不僅適合于神經網絡，也可以向其他分類方法或機器學習方法擴展與延伸。

參考文獻:

　　[1] 賈光峰. 基于多表達式編程的神經網絡自動優化方法及其應用研究[D].濟南：濟南大學,2009

　　[2] Aroonsri Nuchitprasittichai,Selen Cremaschi. An algorithm to determine sample sizes for optimization with artificial neural networks[J]. AIChE J,2012: 593.

　　[3] 周曉飛,姜文瀚,楊靜宇. 基于子空間樣本選擇的最近凸包類器[J]. 計算機工程,2008（12）:167-168，171.

　　[4] 姜文瀚. 模式識別中的樣本選擇研究及其應用[D].南京：南京理工大學,2008.

　　[5] Golub T R, Slonim DK,Tamayo P.Molecular classification of cancer: class discovery and class prediction by gene expression monitoring[J]. Science, 1999, 286(5439): 531-537.

　　[6] Theodoridis S, Koutroumbas K. Patter recognition [M]. Second Edition, NewYork:Academic Press, 2003.

　　[7] Samal A, Iyengar P A. Automatic recognition and analysis of human faces and facial expressions: a Survey[J]. Pattern Recognition, 1992, 25(1): 65-77

　　[8] 伊力哈木?亞爾買買提. 基于改進型PCA和LDA融合算法的人臉圖像識別[J]. 計算機仿真,2013（1）:415-418，426.

原創聲明：此內容為AET網站原創，未經授權禁止轉載。

相關內容