《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 基于深度學習的詞語級中文唇語識別
基于深度學習的詞語級中文唇語識別
2022年電子技術應用第12期
陳紅順1,陳觀明1,2
1.北京師范大學珠海分校 信息技術學院,廣東 珠海519087;2.珠海歐比特宇航科技股份有限公司,廣東 珠海519080
摘要: 在無聲或噪聲干擾嚴重的環境下,或對于存在聽覺障礙的人群,唇語識別至關重要。針對詞語級中文唇語識別的問題,提出了SinoLipReadingNet模型,前端采用Conv3D+ResNet34結構用于時空特征提取,后端分別采用Conv1D結構和Bi-LSTM結構用于分類預測,并引入Self-Attention、CTCLoss對Bi-LSTM后端進行改進。最終在新網銀行唇語識別數據集上進行實驗,結果表明,SinoLipReadingNet模型在識別準確率上明顯優于中科院D3D模型,多模型融合的預測準確率達到了77.64%,平均字錯率為21.68%。
中圖分類號: TP391.4
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.222903
中文引用格式: 陳紅順,陳觀明. 基于深度學習的詞語級中文唇語識別[J].電子技術應用,2022,48(12):54-58.
英文引用格式: Chen Hongshun,Chen Guanming. Chinese word-level lip reading based deep learning[J]. Application of Electronic Technique,2022,48(12):54-58.
Chinese word-level lip reading based deep learning
Chen Hongshun1,Chen Guanming1,2
1.School of Information Technology,Beijing Normal University(Zhuhai),Zhuhai 519087,China; 2.Zhuhai Orbita Aerospace Science & Technology Co.,Ltd.,Zhuhai 519080,China
Abstract: Lip reading is crucial in the silent environment or environments with serious noise interference, or for people with hearing impairment. For word-level Chinese lip reading problem, SinoLipReadingNet model is proposed, the front end of which with Conv3D and ResNet34 is used to extract temporal-spatial features, and the back end of which with Conv1D and Bi-LSTM are used for classification and prediction respectively. Also, self-attention and CTCLoss are added to improve the back end with Bi-LSTM. Finally,the SinoLipReadingNet model is tested on XWBank lipreading dataset and results show that the prediction accuracy is significantly better than that of D3D model, the prediction accuracy and avrage CER of multi-model fusion reaches 77.64% and 21.68% respectively.
Key words : lip reading;ResNet;Bi-LSTM;CTCLoss;self-attention

0 引言

    語言是人類溝通交流的主要方式,語音是人類語言交流的主要載體之一。在無聲或噪聲干擾嚴重的環境下,或對于存在聽覺障礙的人群,如何利用通過嘴唇運動進行語言識別至關重要。唇語識別是指通過觀察和分析人說話時唇部運動的特征變化,識別出人所說話的內容。唇語識別具有廣闊的應用前景:在醫療健康領域,可以借助唇語識別輔助患有聽力障礙的病人溝通交流[1];在安防領域,人臉識別同時通過唇語識別以提高活體識別的安全性[2];在視頻合成領域, 利用唇語識別可以合成特定人物講話場景的視頻[3],或者合成高真實感的虛擬人物動畫等。

    唇語識別主要包含4個步驟[4]:人臉關鍵點檢測與跟蹤、唇語區域提取、時空特征提取和分類與解碼。其中,時空特征提取和分類與解碼是唇語識別的研究重點。近年來,隨著大規模數據集[5]的出現,基于深度學習的方法可以自動抽取深層特征,逐漸成為唇語識別研究的主流方法[6]。如圖1所示,基于深度學習的唇語學習方法將一系列的唇部圖像送入前端以提取特征,然后傳遞給后端以進行分類預測,并以端到端的形式進行訓練。




本文詳細內容請下載:http://m.jysgc.com/resource/share/2000005040。




作者信息:

陳紅順1,陳觀明1,2

(1.北京師范大學珠海分校 信息技術學院,廣東 珠海519087;2.珠海歐比特宇航科技股份有限公司,廣東 珠海519080)




wd.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 99久久超碰中文字幕伊人| 久久国产综合精品swag蓝导航 | 国产精品免费精品自在线观看| nxgx.com| 忍住北条麻妃10分钟让你中出| 久久久2019精品| 日韩乱码人妻无码中文字幕| 亚洲av日韩综合一区尤物| 欧美特黄a级高清免费大片| 你看桌子上都是你流的| 精品午夜福利在线观看| 四虎.com官网| 色多多视频在线观看| 国产公妇仑乱在线观看| 91香蕉视频直播| 国产热の有码热の无码视频| 18禁美女裸体网站无遮挡| 国农村精品国产自线拍| acg里番全彩侵犯本子福利| 娇喘午夜啪啪五分钟娇喘| 一级毛片免费视频网站| 成年女人色毛片| 丰满少妇又爽又紧又丰满在线观看| 日本漂亮人妖megumi| 久久天天躁日日躁狠狠躁| 日韩电影免费在线观看网站| 亚洲av无码乱码在线观看| 欧美xxxx做受欧美| 亚洲中文字幕精品久久| 欧美亚洲国产精品久久高清| 亚洲国产精品ⅴa在线观看| 欧美激情亚洲色图| 亚洲欧美日韩精品久久奇米色影视| 波多野结衣无内裤护士| 亚洲色偷偷av男人的天堂| 热re99久久精品国99热| 亚洲色欲久久久综合网东京热| 男人插曲女人下面| 人妻无码中文字幕| 特级黄一级播放| 亚洲精品自在线拍|