《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 面向多說話人分離的深度學習麥克風陣列語音增強
面向多說話人分離的深度學習麥克風陣列語音增強
2022年電子技術應用第5期
張家揚1,2,童 峰1,2,3,陳東升1,2,3,黃惠祥1,2
1.廈門大學 水聲通信與海洋信息技術教育部重點實驗室,福建 廈門361005; 2.廈門大學 海洋與地球學院,福建 廈門361005;3.廈門大學深圳研究院,廣東 深圳518000
摘要: 隨著近年來人機語音交互場景不斷增加,利用麥克風陣列語音增強提高語音質量成為研究熱點之一。與環境噪聲不同,多說話人分離場景下干擾說話人語音與目標說話人同為語音信號,呈現類似的時、頻特性,對傳統麥克風陣列語音增強技術提出更高的挑戰。針對多說話人分離場景,基于深度學習網絡構建麥陣空間響應代價函數并進行優化,通過深度學習模型訓練設計麥克風陣列期望空間傳輸特性,從而通過改善波束指向性能提高分離效果。仿真和實驗結果表明,該方法有效提高了多說話人分離性能。
中圖分類號: TN912.3
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.212404
中文引用格式: 張家揚,童峰,陳東升,等. 面向多說話人分離的深度學習麥克風陣列語音增強[J].電子技術應用,2022,48(5):31-36.
英文引用格式: Zhang Jiayang,Tong Feng,Chen Dongsheng,et al. Deep learning microphone array speech enhancement for multiple speaker separation[J]. Application of Electronic Technique,2022,48(5):31-36.
Deep learning microphone array speech enhancement for multiple speaker separation
Zhang Jiayang1,2,Tong Feng1,2,3,Chen Dongsheng1,2,3,Huang Huixiang1,2
1.Key Laboratory of Underwater Acoustic Communication and Marine Information Technology Ministry of Education, Xiamen University,Xiamen 361005,China; 2.College of Ocean and Earth Sciences,Xiamen Univercity,Xiamen 361005,China; 3.Shenzhen Research Institute of Xiamen Univercity,Shenzhen 518000,China
Abstract: With the increase of human-computer voice interaction scenes in recent years, using microphone array speech enhancement to improve speech quality has become one of the research hotspots. Different from the ambient noise, the interfering speaker′s speech and the target speaker are the same speech signal in the multiple speaker separation scene, showing similar time-frequency characteristics, which poses a higher challenge to the traditional microphone array speech enhancement technology. For the multiple speaker separation scenario, the spatial response cost function of microphone array is constructed and optimized based on deep learning network. The desired spatial transmission characteristics of microphone array are designed through deep learning model training, so as to improve the separation effect by improving the beamforming performance. Simulation and experimental results show that this method effectively improves the performance of multiple speaker separation.
Key words : deep learning;microphone array;beamforming;LSTM

0 引言

    隨著人與機器之間的語言交互逐漸頻繁,更需要考慮噪聲、混響和其他說話人的干擾等引起語音信號質量下降的因素對語音識別造成的影響,語音增強技術[1]可以有效地從受干擾的信號中提取純凈的語音,而麥克風陣列比起單個麥克風可以獲取更多的語音信息和時空特征,因而麥克風陣列語音增強技術被廣泛應用在智能家居、車載系統和音(視)頻會議等領域。

    麥克風陣列對信號進行空間濾波,可以增強期望方向上的信號并抑制方向性噪聲,實現語音增強。傳統麥陣語音增強算法;如形成固定波束的濾波累加波束形成算法(Filter-and-Sum Beamforming,FSB)[2],通過一定長度的濾波器系數對多通道信號進行濾波累加,實現了頻率無關的空間響應特性,具有低復雜度、硬件容易實現等優點,但是對于具有方向性的噪聲效果不佳。




本文詳細內容請下載:http://m.jysgc.com/resource/share/2000004272




作者信息:

張家揚1,2,童  峰1,2,3,陳東升1,2,3,黃惠祥1,2

(1.廈門大學 水聲通信與海洋信息技術教育部重點實驗室,福建 廈門361005;

2.廈門大學 海洋與地球學院,福建 廈門361005;3.廈門大學深圳研究院,廣東 深圳518000)




wd.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 最近中文字幕更新8| 两根大肉大捧一进一出好爽视频| 波多野结衣xxxxx在线播放| 啊~又多了一根手指| 久久久91精品国产一区二区三区| 用手指搅乱吧~打烊后的...| 国产99视频精品免费视频7| 黄色三级电影网址| 国产精品99久久免费| 一级毛片免费全部播放| 日本19禁啪啪无遮挡大尺度| 乱中年女人伦av一区二区| 欧美国产成人精品一区二区三区| 人人色在线视频播放| 青青视频免费在线| 国产韩国精品一区二区三区| jiuma啊灬啊别停灬啊灬快点| 日本精品一二三区| 亚洲AV无码一区二区三区在线| 欧美性色欧美a在线播放| 亚洲第一区精品日韩在线播放| 男人把女人桶到爽爆的视频网站| 十八岁的天空完整版在线观看| 亚洲激情中文字幕| 国产精品综合一区二区三区| 99热在线精品播放| 天天操天天舔天天干| 一个人看的www免费高清中文字幕 一个人看的www免费高清中文字幕 | 少妇高潮太爽了在线视频| 亚洲AV无码乱码国产精品| 欧美伊香蕉久久综合类网站| 亚洲成av人片在线观看| 看**视频一一级毛片| 国产亚洲精品无码专区| 麻豆国产高清精品国在线| 国产成人一区二区三区视频免费| 欧美影院在线观看| 在线免费观看中文字幕| a级毛片免费网站| 成人浮力影院免费看| 九色综合九色综合色鬼|