《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計應(yīng)用 > 基于PLDA的說話人識別時變魯棒性問題研究
基于PLDA的說話人識別時變魯棒性問題研究
2016年微型機(jī)與應(yīng)用第05期
陳霄鵬,彭亞雄,賀松
(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院, 貴州 貴陽 550025)
摘要: 隨著時間的變化,人的聲音也會發(fā)生變化。這對說話人的識別帶來了一定的影響。通過研究發(fā)現(xiàn),說話人識別的性能與時間有著線性變化的規(guī)律。傳統(tǒng)的說話人識別系統(tǒng)使用GMMUBM模型并不能很好地學(xué)習(xí)出線性變化規(guī)律。由于概率線性判別分析(PLDA)對于類內(nèi)與類間有著很好的線性區(qū)分度,所以為了解決線性變化的問題,選擇概率線性判別分析的方法學(xué)習(xí)說話人識別中時變的線性變化規(guī)律。從實(shí)驗(yàn)結(jié)果看出,PLDA對于說話人識別的識別魯棒性具有很好的提升。
Abstract:
Key words :

  陳霄鵬,彭亞雄,賀松

  (貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院, 貴州 貴陽 550025)

  摘要:隨著時間的變化,人的聲音也會發(fā)生變化。這對說話人的識別帶來了一定的影響。通過研究發(fā)現(xiàn),說話人識別的性能與時間有著線性變化的規(guī)律。傳統(tǒng)的說話人識別系統(tǒng)使用GMMUBM模型并不能很好地學(xué)習(xí)出線性變化規(guī)律。由于概率線性判別分析(PLDA)對于類內(nèi)與類間有著很好的線性區(qū)分度,所以為了解決線性變化的問題,選擇概率線性判別分析的方法學(xué)習(xí)說話人識別中時變的線性變化規(guī)律。從實(shí)驗(yàn)結(jié)果看出,PLDA對于說話人識別的識別魯棒性具有很好的提升。

  關(guān)鍵詞:說話人識別;時變魯棒性GMM-UBM;PLDA

0引言

  說話人識別即聲紋識別,為生物特征識別的一種。而聲紋這一概念從誕生之初就一直伴隨著其是否隨時間變化的質(zhì)疑。經(jīng)過多年的研究發(fā)現(xiàn),聲紋識別確確實(shí)實(shí)隨著時間發(fā)生變化。早在2003年,Bonastre教授已發(fā)表論文指出說話人識別的時變問題。在實(shí)際的說話人識別系統(tǒng)中,聲紋預(yù)留與聲紋驗(yàn)證之間的時間間隔也帶來了系統(tǒng)性能的下降。

  在已有的研究中,浙江大學(xué)CNNT實(shí)驗(yàn)室設(shè)計了一個聲紋打卡系統(tǒng),記錄了實(shí)驗(yàn)室成員每天打卡情況,其中在開始的50天里識別率為69.02%,在稍近的幾天里識別率提高到了74.19%。同時提出了平滑化梅爾倒譜系數(shù)(Smoothing Mel Cepstrum Coefficient, SMFCC )這種更穩(wěn)定的特征提高時變魯棒性。

  清華大學(xué)語音和語言技術(shù)中心王琳琳博士以Fratio作為中間準(zhǔn)則計算頻帶區(qū)分度從而提高其魯棒性。同時還提出了性能驅(qū)動的頻率彎折方法的特征提取算法。

  以上研究都基于特征層面,并未涉及到模型層面,本文研究著重于模型層面。

1說話人識別的線性變化規(guī)律

  隨著時間的變化,人的聲音也會發(fā)生變化,從而影響說話人識別的識別率。其識別率會降低,而這種降低類似線性變化。所以,假設(shè)說話人識別中不同時間的特征之間的線性相關(guān),通過特征之間的相關(guān)系數(shù)可以判別兩個特征之間的線性相關(guān)性。根據(jù)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),相關(guān)系數(shù)都在0.7~1之間,也就說明特征與特征之間有著極大的線性相關(guān)性。而且相關(guān)系數(shù)隨著時間的變化也有著相對的線性變化。實(shí)驗(yàn)結(jié)果如圖1。

  

001.jpg

  為了更加準(zhǔn)確地描述時間變化的規(guī)律,最大可能排除音素沒有對齊的影響,故而選擇動態(tài)時間規(guī)整(Dynamic Time Warping, DTW)對特征進(jìn)行分析。將動態(tài)時間規(guī)整后的兩段語音求cosine距離,根據(jù)cosine距離觀察兩段語音的相似程度。實(shí)驗(yàn)結(jié)果表明,cosine距離隨著時間的變化也呈現(xiàn)出相應(yīng)的線性變化。實(shí)驗(yàn)結(jié)果如圖2。

  

002.jpg

  由以上兩個實(shí)驗(yàn)結(jié)果可以得出,隨著時間的變化,說話人識別的魯棒性呈線性變化規(guī)律。

2概率線性判別分析

  說話人識別是模式識別的一種,分為訓(xùn)練和識別兩個階段。訓(xùn)練可以認(rèn)為就是將語音按照不同的人進(jìn)行分類,每一類代表了一個人,識別就是將測試的語音與已經(jīng)分好類的模型進(jìn)行比對。在說話人識別中加入時間的變化,就要同時考慮同一類的變化,即類內(nèi)的變化,以及類與類之間的變化,也即類間的變化。

  線性概率判別分析[13](Linear Discriminant Analysis,LDA)是一種將類內(nèi)和類間的方差作為多維高斯分布的一種技術(shù),它尋求方向空間最大的辨別力,因此非常適合支持類的識別任務(wù)。

  假設(shè)訓(xùn)練數(shù)據(jù)為不同的I個人,且每個人有J個語音,xij表示第i 個人的第j個語音,則LDA模型可表示為:

  xij=μ+Fhi+Gwij+ij(1)

  此模型分為兩個部分:第一個部分μ+Fhi只與每個個體的特征有關(guān),而與每條語音的特征無關(guān);第二個部分Gwij+ij指每個個體語音的不同以及代表個體內(nèi)部的噪聲。其中μ為訓(xùn)練數(shù)據(jù)集的總體平均數(shù);矩陣F的列包含了個人之間子空間的主要成分;hi代表這個子空間的位置;矩陣G包含了個體內(nèi)部子空間的主要成分;wij代表這個子空間的位置;ij定義為高斯對角線協(xié)方差Σ(殘差)。從條件概率方面來描述式(1)的模型:

  Pr(xij|hi,wij,θ)=x[μ+Fhi+Gwij,Σ](2)

  Pr(hi)=h[0,I] (3)

  Pr(wij)=w[0,I](4)

  式a[b,C]中,a為變量,b為期望,C為方差的高斯分布。式(2)~式(4)都是同樣的高斯分布。

  2.1訓(xùn)練階段

  訓(xùn)練階段的主要目標(biāo)是得到一組數(shù)據(jù)點(diǎn)xij,并且得到相應(yīng)的參數(shù)θ={μ,F,G,Σ}。如果知道隱藏變量hi和wij的值,這個問題將變得十分簡單。同樣地在給定θ的情況下也很容易估計hi和wij。但是式(1)中的很多參量都是未知的。

  使用EM算法[45]可以解決這個問題。EM算法通過迭代輪流估計兩個參數(shù)。在Estep,計算出整個后驗(yàn)分布中的隱藏變量hi和wij,從而修正參數(shù)的值。在Mstep,使參數(shù)θ={μ,F,G,Σ}的點(diǎn)估計最優(yōu)化。

  2.2識別階段

  在識別階段,需要比較數(shù)據(jù)在R個模型M1…R下的似然分。定義模型M代表了隱藏身份變量hi和數(shù)據(jù)的一種關(guān)系。如果測試集中的多條語音屬于同一個人,那么這些語音就需要一個相同的身份變量hi。反之如果多條語音對應(yīng)了多個人,那么就需要不同的身份變量。因此需要得到第q個模型的似然分Pr(X|Mq),其中X是所有的觀察數(shù)據(jù)。為了計算每個模型的后驗(yàn)概率,需要使用貝葉斯準(zhǔn)則[68]:

  4T@M6OG8CGLUO8H~@G@BU0A.png

003.jpg

  為了更真實(shí)地描述這個公式,假設(shè)訓(xùn)練語音為x1、x2,測試語音為xp。如圖3所示,圖中有兩個模型,模型M1的測試語音xp與訓(xùn)練語音x1相匹配,則它們有著相同的身份變量h1[910]。同樣地,模型M2的測試語音xp與訓(xùn)練語音x2相匹配,則它們就有著相同的身份變量h2。用下式計算數(shù)據(jù)在模型M1下的似然分:

  Pr(x1,2,p|M1)=Pr(x1,p|M1)Pr(x2|M2) (6)

  其中隨機(jī)變量x1,p和x2是相互獨(dú)立的。此處目標(biāo)是求出觀測數(shù)據(jù)的似然分,然而隱藏變量h和w都是未知的[1011]。提取出所有關(guān)鍵的觀測似然分和已知的隱藏變量,忽略未知的隱藏變量,從而可以得到:

  Pr(x1,p|M1)=Pr(x1,xp,h1,w1,wp)dh1dw1dwp(7)

  進(jìn)一步可以得到:

  Pr(x1,p|M1)=∫[∫Pr(x1|h1,w1)Pr(w1)dw1

  ∫Pr(xp|h1,wp)Pr(wp)dwp]Pr(h1)dh1(8)

  同樣地,可以得出關(guān)于x2的條件概率:

  Pr(x2|M1)=Pr(x2|h2,w2)Pr(w2)dw2Pr(h2)dh2(9)

  以上條件概率所描述的都是最開始所定義的高斯分布,即式(1)~式(4)。同樣地,模型M2可以用相同的方法做分解。

  在計算式(8)、式(9)的積分時,算出N條語音匹配相同參數(shù)h的似然分,同時忽略了噪音參數(shù)w1...wN,加之PLDA是一種線性的高斯分布,所以可以將N條語音識別的系統(tǒng)按照式(1)寫成下面的等式:

  5.png

  將上式重新命名為:

  x′=μ′+Ay+′(11)

  Pr(x′|y)=x′[Ay,∑′](12)

  Pr(y)=y[0,I](13)

  其中:

  14.png

  式(12)、式(13)即為標(biāo)準(zhǔn)的因素分析形式,而這種方法是已知的:

  15.png

  實(shí)際中,在已知矩陣A結(jié)構(gòu)的前提下,可以提高計算效率。

3實(shí)驗(yàn)

  實(shí)驗(yàn)采用GMM-UBM與PLDA進(jìn)行比較。兩種算法均采用采樣率為16 kHz的語音和39維的MFCC特征,MFCC特征由基本的13維MFCC特征加上其一階導(dǎo)數(shù)和二階導(dǎo)數(shù)組成。其中MFCC的幀寬為24 ms,幀移為12 ms,預(yù)加重系數(shù)為0.97,MFCC濾波器組數(shù)目為30,低頻截止頻率為60 Hz,高頻截止頻率為3 600 Hz,DCT數(shù)目為16。同時增加有效語音檢測(Voice Activity Detection, VAD),取得有效音。對連續(xù)四周的語音進(jìn)行測試,以等錯誤率(Equal Error Rate, EER)為判別標(biāo)準(zhǔn)。EER為錯誤拒絕率(False Rejection Rate,F(xiàn)RR)和錯誤接受率(False Acceptance Rate,F(xiàn)AR)相等的點(diǎn)。實(shí)驗(yàn)結(jié)果如表1。 

004.jpg

  其中本周測試表示以當(dāng)前周的訓(xùn)練語音建立模型,用當(dāng)前周的測試語音進(jìn)行測試。第一周的結(jié)果表示的是以當(dāng)前周的語音為訓(xùn)練語音,以當(dāng)前周的下一周的測試語音進(jìn)行測試。后三周的測試方法與第一周的測試方法相同。

  由表1實(shí)驗(yàn)結(jié)果可以看出,說話人識別的時變魯棒性具有線性變化規(guī)律,隨著時間的推移,不論是GMMUBM[12]還是PLDA[13],在不同周的測試效果均在逐步降低,但是PLDA的整體效果均優(yōu)于GMMUBM。從時變的魯棒性來看,PLDA的EER從第一周到第四周表現(xiàn)比較平穩(wěn),均保持在9%左右,而GMM_UBM在第三周開始有了明顯的增加,也就是說GMMUBM的魯棒性有所降低。

4結(jié)束語

  本文通過使用PLDA模型對說話人識別進(jìn)行了測試,目的在于解決時變的魯棒性問題,從實(shí)驗(yàn)結(jié)果來看,PLDA對時變的魯棒性有很大的提高。本文中使用PLDA和GMMUBM對語音進(jìn)行了測試,以GMMUBM為基線,從測試結(jié)果來看,PLDA的整體效果均優(yōu)于GMMUBM。以后可以使用PLDA為基線,通過對PLDA的改進(jìn)來進(jìn)一步提高時變的魯棒性。

參考文獻(xiàn)

  [1] YOUNG S. A review of largevocabulary continuousspeech recognition[J]. Signal Processing Magazine, IEEE, 1996, 13(5): 45.

  [2] LIANG L, RENALS S. Probabilistic linear discriminant analysis for acoustic modelling[J]. IEEE Signal Processing Letters, 2014,21(6):702706.

  [3] CHEN L F, LIAO H Y M, LIN J C, et al. A new LDA-based face recognition system which can solve the sample size problem[J]. Pattern Recognition, 2000, 33(10): 17131726.

  [4] RUBIN R, THAYER D. EM algorithms for ML factor analysis[J]. Psychometrika, 1982,47(1):6976.

  [5] GHARAMANI Z, HINTON G E. The EM algorithm for mixtures of factor analyzers[R]. University of Toronto Technical Report, 1997.

  [6] DEHAK N, KENNY P J, DEHAK R, et al. Frontend factor analysis for speaker verification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 9(4): 788798.

  [7] KIM T, KITTLER J. Locally linear discriminant analysis for multimodally distributed classes for face recognition with a single model image[J]. PAMI, 2005, 27(3): 318327.

  [8] MATEJKA P, GLEMBEK O, CASTALDO F, et al. Fullcovariance UBM and heavytailed PLDA in i-vector speaker verification[C]. In Proc. ICASSP. IEEE, 2011: 48284831.

  [9] HASAN T, HANSEN J H L. Acoustic factor analysis for robust speaker verification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(4): 842853.

  [10] KENNY P. Bayesian speaker verification with heavy tailed priors[C]. In Speaker and Language Recognition Workshop (IEEE Odyssey), 2010:141.

  [11] GODFREY J J, HOLLIMAN E C, MCDANIEL J. SWITCHBOARD: telephone speech corpus for research and development[C]. In Proc. ICASSP. IEEE, 1992: 517520.

  [12] REYNOLDS D A, QUATERI T F, DUNN R B. Speaker verification using adapted Gaussian mixture models[J]. Digital Signal Processing, 2000, 10(1/3): 1941.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
国产精品免费观看在线| 亚洲精品美女在线| 欧美激情一区二区三区不卡| 久久久国产精品亚洲一区 | 99国产精品一区| 亚洲国产裸拍裸体视频在线观看乱了| 午夜亚洲影视| 亚洲欧美综合另类中字| 亚洲欧美日韩专区| 亚洲欧美视频在线观看| 午夜在线播放视频欧美| 午夜在线观看免费一区| 欧美一区不卡| 亚洲第一网站免费视频| 亚洲国产欧美一区二区三区同亚洲| 久久精品国产综合精品| 亚洲国产黄色| 亚洲精选大片| 亚洲视频二区| 午夜精品久久久久久| 性欧美1819性猛交| 久久精品成人欧美大片古装| 久久九九全国免费精品观看| 久久久一区二区| 美女视频黄免费的久久| 欧美大片免费久久精品三p | 欧美日韩亚洲一区三区| 欧美亚州韩日在线看免费版国语版| 国产精品videosex极品| 国产精品入口尤物| 国产一区观看| 亚洲激情另类| 在线视频亚洲| 性感少妇一区| 久久精品国产精品亚洲精品| 亚洲精品视频啊美女在线直播| 一区二区毛片| 欧美一区二区高清| 蜜臀久久久99精品久久久久久| 欧美大片一区二区| 欧美三级中文字幕在线观看| 国产美女诱惑一区二区| 在线观看亚洲精品| 亚洲免费观看高清完整版在线观看熊| 亚洲一级黄色| 亚洲成人资源网| 一本色道久久99精品综合| 亚洲欧美日韩国产中文在线| 久久久久久久久岛国免费| 欧美激情视频一区二区三区在线播放 | 欧美婷婷久久| 国产亚洲亚洲| 亚洲精品美女免费| 性欧美激情精品| 99亚洲视频| 欧美主播一区二区三区美女 久久精品人 | 欧美成人亚洲成人日韩成人| 欧美午夜欧美| 激情久久中文字幕| 亚洲免费观看视频| 久久精品首页| 亚洲一区国产精品| 麻豆免费精品视频| 国产精品欧美久久| 最新中文字幕亚洲| 久久av一区二区三区漫画| 一区二区国产精品| 久久久人人人| 欧美日韩视频在线一区二区观看视频| 国产亚洲在线| 亚洲四色影视在线观看| 亚洲国产精品久久久久秋霞不卡 | 国产精品日韩| 亚洲欧洲精品一区二区| 性色av一区二区三区在线观看| 一本色道久久综合亚洲精品婷婷| 久久九九99视频| 国产精品久久夜| 最新国产成人av网站网址麻豆| 香蕉久久久久久久av网站| 妖精成人www高清在线观看| 老司机一区二区三区| 国产精品手机在线| 亚洲精品国产精品乱码不99| 久久国产主播| 久久成人亚洲| 欧美性理论片在线观看片免费| 亚洲高清免费| 久久se精品一区精品二区| 午夜欧美电影在线观看| 欧美片第一页| 精品盗摄一区二区三区| 午夜天堂精品久久久久| 亚洲欧美国产另类| 欧美日韩裸体免费视频| 91久久视频| 亚洲黄色精品| 久久中文在线| 黑人巨大精品欧美一区二区| 亚洲欧美一区二区激情| 亚洲尤物在线| 欧美亚洲成人网| 亚洲免费精彩视频| 99热在线精品观看| 欧美黄色视屏| 亚洲国产一区在线观看| 亚洲国产婷婷综合在线精品| 久久精品国产免费| 国产精一区二区三区| 亚洲图片欧美日产| 亚洲一区国产视频| 欧美视频在线观看 亚洲欧| 亚洲精品免费网站| 日韩午夜av电影| 欧美极品一区| 最近中文字幕mv在线一区二区三区四区 | 亚洲福利小视频| 久久亚洲国产成人| 激情小说另类小说亚洲欧美| 久久精品一区二区国产| 久久一区二区三区超碰国产精品| 国产在线拍揄自揄视频不卡99| 欧美在线免费看| 999亚洲国产精| 亚洲已满18点击进入久久| 欧美日韩在线影院| 一本久道久久久| 亚洲一区视频| 国产精品成人在线| 亚洲综合精品| 久久久www成人免费精品| 狠狠噜噜久久| 亚洲国产精品久久久久婷婷老年| 欧美.www| 亚洲精一区二区三区| 亚洲天堂偷拍| 国产精品蜜臀在线观看| 亚洲欧美999| 久久久噜噜噜久久人人看| 狠色狠色综合久久| 亚洲人精品午夜在线观看| 欧美男人的天堂| 亚洲午夜精品17c| 欧美一级久久久| 国产亚洲欧美一级| 亚洲高清网站| 久久久噜噜噜| 欧美午夜宅男影院| 午夜亚洲福利| 男人的天堂亚洲在线| 日韩午夜在线视频| 性欧美精品高清| 精品动漫3d一区二区三区免费| 亚洲精选视频免费看| 国产精品扒开腿做爽爽爽视频| 午夜欧美精品| 免费视频最近日韩| 一区二区三区日韩在线观看| 欧美在线啊v| 在线观看的日韩av| 亚洲视频狠狠| 国产亚洲一区在线| 亚洲毛片一区| 国产精品一区免费在线观看| 亚洲国产精品成人一区二区| 欧美日韩在线影院| 欧美在线观看你懂的| 欧美黄色日本| 香蕉久久一区二区不卡无毒影院| 久久综合给合| 一卡二卡3卡四卡高清精品视频| 久久www成人_看片免费不卡| 在线观看亚洲专区| 亚洲欧美视频| 亚洲国产精品一区二区尤物区| 亚洲欧美在线播放| 在线日韩电影| 亚洲男人的天堂在线观看| 一区二区三区在线免费视频| 亚洲一区二区日本| 在线欧美日韩国产| 欧美一区二区观看视频| 亚洲国产精品传媒在线观看| 欧美一区二区三区四区高清| 91久久在线| 久久久在线视频| 亚洲视频狠狠| 欧美成人日本| 欧美在线视频观看| 国产精品播放| 日韩视频在线免费| 国产亚洲人成a一在线v站| 亚洲伊人伊色伊影伊综合网| 亚洲国产经典视频| 欧美制服丝袜第一页| 夜夜嗨av一区二区三区| 欧美插天视频在线播放| 欧美一级电影久久| 国产精品狠色婷| 一区二区三区四区蜜桃|