《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 設計應用 > 一種語音識別中核心詞快速模型優化方法
一種語音識別中核心詞快速模型優化方法
2019年電子技術應用第2期
楊 維,張才俊,馬永波
國家電網客服中心 信息技術部,天津300000
摘要: 針對國網客服電話語音識別在特定領域核心詞識別效果差的問題,提出一種基于HCLG領域詞權重增強和領域詞糾正的方法,能夠實時并快速地添加領域詞,從而動態地優化語言模型,提升語音識別效果。將該模型和算法優化應用在國網客服中心電話語音的咨詢、維修、投訴等各種領域場景中,其語音識別結果都得到大幅改善。
關鍵詞: 語音識別 HCLG
中圖分類號: TP183
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.182304
中文引用格式: 楊維,張才俊,馬永波. 一種語音識別中核心詞快速模型優化方法[J].電子技術應用,2019,45(2):9-11.
英文引用格式: Yang Wei ,Zhang Caijun,Ma Yongbo. Domain word recognition enhancement method in speech recognition[J]. Application of Electronic Technique,2019,45(2):9-11.
Domain word recognition enhancement method in speech recognition
Yang Wei,Zhang Caijun,Ma Yongbo
IT Department,State Grid Customer Service Center,Tianjin 300000,China
Abstract: Aiming at the problem that the national network customer telephone voice recognition has poor recognition of core words in specific fields, this paper proposes a method based on HCLG domain weight enhancement and domain word correction, which can add domain words in real time and quickly, to dynamically optimize the language model and improve speech recognition. The model and algorithm are optimized in the various fields of the telephone voice consultation, maintenance, complaints, etc. of the State Grid Customer Service Center. The speech recognition results have been greatly improved.
Key words : speech recognition;HCLG

0 引言

    近年來,隨著語音識別技術的逐步成熟,語音識別技術被應用到越來越多的場景中。國家電網客服中心成立人工智能中心,并深入研究語音識別核心技術以及語音在智能客服系統中的應用。當前國網語音系統面臨的一個非常關鍵的問題就是通用語音識別,在文本語料能夠覆蓋的通用場景識別中,如查天氣、問車票等,識別率很高。但是,在國網客服電話語音中,面臨大量國網業務特有的核心詞匯和說法,如專有名詞“電線桿、高壓鐵塔、絕緣子、金具、瓷瓶、拉線”等,由于其屬于特定領域,通用的領域語言模型很難正確識別。因此,如何在保證通用領域高識別率的同時,能夠快速通過模型訓練和優化來提升新領域、新核心詞的識別率,就尤為關鍵。

    目前,對于領域詞增強的方法主要是通過優化語言模型來解決,包括兩個方法:(1)領域語料獲取,即在相關領域通過收集大量的文本語料,訓練領域相關的語言模型,以達到對領域詞準確的識別;(2)分類語言模型[1],即領域詞為某一類別詞,通過類別替換獲取類別的領域語料,訓練得到類別語言模型,進而實現對領域詞的識別。

    但是,在實際應用場景中面臨3個問題:(1)領域文本語料很難獲取和收集,并且也無法覆蓋所有領域的詞,很難訓練獲得一個比較好的領域語言模型;(2)目前使用較多解決領域詞識別的是基于類的語言模型,然而這種模型需要提前定義詞類,相對復雜,對那些不屬于任何一類的詞不好建模。領域詞具有多樣性,無法用類別代替,如國網業務詞和專業詞種類較多;(3)領域詞具有實時性且不斷擴充,模型完全重新訓練到上線應用會有一定的滯后,不能實時生效。

    為了解決語音識別中領域詞的多樣性和實時性,本文設計了一種基于HCLG領域詞權重增強來優化語言模型的方法,并重構語音識別解碼流程,如圖1所示。首先獲取領域內領域詞,并對領域詞進行發音標注;然后對HCLG中對應領域詞進行權重增強,使得解碼過程在盡量不影響性能的前提下保證領域詞的識別;接著,對語音識別的結果進行后處理,即領域詞的檢查和替換。本文的方法只依賴領域詞表,可以實時添加和擴充,并實時生效。

rgzn3-t1.gif

1 HCLG領域詞權重增強

1.1 HCLG

    在大規模連續語音識別中,解碼過程一般采用加權有限狀態轉換器(Weighter Finite State Transducer,WFST)[2],因此以WFST為框架的大詞匯量連續語音識別系統被廣泛應用。語音識別的解碼過程可以分為語言模型、發音詞典規律、上下文相關和隱馬爾可夫模型等限制下,尋找一個最有可能的文本序列的過程。

    語音識別解碼器是在給定輸入特征序列下尋找最優的文本次序,尋找次序的過程其實就是在HCLG圖上檢索的過程。關于HCLG:G表示語言模型,用來解碼語法;L是發音詞典,輸入是音素,輸出是詞;C表示音素上下文關系;H是隱馬爾可夫模型,表示相似狀態之間的跳轉狀態。

1.2 領域詞權重增強

    上文中介紹了HCLG的結構,在本小節中,將詳細描述如何通過修改HCLG的權重來增強領域詞的識別效果。本文的修改只是對HCLG中的G語言模型進行修改,可以將HCLG簡化表示如圖2所示。

rgzn3-t2.gif

    本文提出的在HCLG中對領域詞進行增強主要是通過構造領域詞狀態轉移圖(下文中用S.FST表示),然后將S.FST與現有的HCLG進行合并生成HCLGS。本方法能夠通過自定義S.FST中詞的權重,增強HCLG中對應詞的權重,同時可以共享HCLG中原有詞的權重,保證了領域詞的識別。

    (1)生成領域詞S.FST

    假設領域詞為“國家智能電網”,可以將領域詞拆分為已有詞表詞的組合,即:“國家”、“智能”、“電網”。根據領域詞可以生成對應的S.FST,如圖3所示。

rgzn3-t3.gif

    (2)生成HCLGS

    根據上個模塊生成的S.FST,將S.FST與HCLG進行合并,如圖4所示。合并操作即將原S.FST中的邊合并到HCLG對應的邊上,在本文例子中即將“國家”和“智能”連接,對應的權重為用戶自定義。

rgzn3-t4.gif

2 領域詞糾正

    上小節中,在HCLG中對領域詞的權重進行增強,增加了解碼階段領域詞出現的概率。但是,由于要保證語音識別結果的正確性,不能對在HCLG中對領域詞增加過大的權重,以免影響整體解碼的效果,因此需要對解碼后的結果進行領域詞增強。在解碼過程中,解碼識別錯誤的領域詞往往是由于發音相似但是字形不對而導致的,因此,后處理的過程需要匹配到相似發音的領域詞,從而進行替換。為了替換的準確性,本文以音素為基本單位進行領域詞的替換。后處理主要涉及兩部分:領域詞檢索和發音相似度度量。

    在語音識別過程中,解碼的效率往往在實際應用中比較重要,因此需要設計一種快速的領域詞查找的方法,實現高效的領域詞替換。本文提出一種基于音素樹的領域詞快速查找方法。

2.1 音素檢索樹

    字典樹,又稱Trie樹、前綴樹,是一種樹形結構,是哈希樹的變種,是一種用于快速檢索的多叉樹結構。典型應用是用于統計和排序大量的字符串(但不僅限于字符串)[3],所以經常被搜索引擎系統用于文本詞頻統計。它能最大限度地減少無謂的字符串比較,查詢效率比哈希表高。本文的音素串查找可以看作是字符串查找,即檢索相同的音素串,因此可以利用字典樹建立音素檢索樹,從而進行音素的匹配查找。

    首先,需要將領域詞轉換為音素串,如“電網、斷線”轉換為音素串則為“d ian1,w ang3;d uan1,x ian4”,將領域詞轉換為領域詞音素串列表,從而轉換為對應的音素前綴樹,如圖5所示。

rgzn3-t5.gif

    在圖2中,一個單字由兩個節點表示,在有漢字表征的節點可以看作一個字或詞的結束節點,如節點“ian2 電”表征這個節點是字的結束節點,節點“ang2電網”表征這個節點是詞的結束節點。即在字典樹種,每個音素標注一個節點,每個字或詞表征一個因素的路徑,并記錄在路徑的結束節點。

2.2 音素檢索

    上一節定義和建立了音素檢索樹,本模塊描述音素樹的檢索和替換過程主要分兩種情況:精確匹配和模糊匹配。

    精確匹配為字典樹的檢索過程,直接進行字符串匹配,如果匹配到對應字或詞的節點,即表明查找到對應的音素出串,如輸入音素樹“h ao3 b a1”(對應漢字為“號吧”),則匹配到”h ao3”,字符串中存在相似的發音,則替換為“好吧”。具體字典樹的檢索算法:

    (1)總是在字典樹的根節點開始,且對樹的根節點為空。

    (2)掃描第一層各個節點獲得查找音素的節點,并根據序列的下一個音素選擇對應的字數并轉到該子樹繼續檢索所在層的各個節點,如果查找到葉子節點,則轉到步驟(3);否則,繼續選擇對應的子樹搜索。

    (3)匹配到葉子節點,則獲取葉子節點上次數,即完成匹配;若未匹配到葉子節點,則向上追溯最近的字或詞節點,匹配成功;若未匹配到任何字或詞節點,則匹配失敗。

    對于模糊匹配,要考慮到發音相似的音素串匹配,比如業務詞“電網“對應的發音音素為”d ian1 w ang3”,但是在語音識別的過程中,可能聲學模型會輸出“d ian1 w ang4”,對應的音調發生問題,但是其對應的還是業務詞“電網”。因此,在這種情況下,要考慮發音相似的情況。本文只考慮到音調的相似度,根據經驗可得,對于聲調3聲和4聲可認為為同一種音素。在檢索時,當匹配音素節點時,相同音素且不同聲調的,可認為為同一種發音,即匹配節點成功。當然,可以設計更為復雜的相似度算法進行檢索,本文目前沒有深入設計。

3 實驗

    本文實驗基于國網客服人工智能中心和清華大學語音語義實驗室聯合研發的語音識別系統,其中聲學模型是由100h的863開放語音數據[4]和Kaldi[5]的DNN訓練工具訓練所得。實驗中具體參數:語音特征維度為39維特,音素集使用中文的拼音。對于語言模型,本文采用srilm[6]工具和新聞數據sogouT[7]進行訓練得到一個領域通用的語言模型,并基于國網客服電話語音特定領域詞進一步訓練優化。

    在測試時,選取國網客服各領域核心詞匯列表(如“應急電壓、應急電源”等),進行了4組實驗:(1)直接使用語音識別系統進行識別;(2)將地名詞進行HCLG加強,進行語音識別;(3)將地名詞進行語音識別后糾正;(4)使用HCLG增強和識別后糾正。具體實驗結果如表1所示。

rgzn3-b1.gif

    通過實驗可以看出,基于HCLG增強的模型優化和基于后處理的核心詞糾正都能顯著提高領域詞的識別效果,相對錯誤率下降(11.54-8.18)/11.54=29.1%。

4 結論

    本文提出了一種針對不同領域核心詞的模型優化方法,通過對HCLG的增強以及識別后處理優化,該方法能夠快速全面地提高領域詞的識別準確率。這種方法能夠快速且實時地增加領域詞,以適應語音識別在不同領域場景的使用。同時,該方法克服了之前限定類別領域詞識別的限制,可以更加靈活地添加領域詞,減少了領域詞添加的復雜性。本文提出的領域詞增強的方法可成功解決國網客服的電話語音的核心詞識別優化問題。

參考文獻

[1] 楊林國.詞類擴充方法在語音識別中的應用[J].電子技術應用,2014,40(6):123-125.

[2] MOHRI M,PEREIRA F,RILEY M.Weighted finite-state transducers in speech recognition[J].Computer Speech & Language,2002,16(1):69-88.

[3] 孫芳媛.基于倒排索引和字典樹的站內搜索引擎的設計與實現[D].哈爾濱:哈爾濱工業大學,2016.

[4] 李愛軍,王天慶,殷治綱.863語音識別語音語料庫RASC863——四大方言普通話語音庫[C].第七屆全國人機語音通訊學術會議(NCMMSC7)論文集,2003:274-277.

[5] POVEY D,GHOSHAL A,BOULIANNE G,et al.The Kaldi speech recognition toolkit[C].IEEE 2011 Workshop on Automatic Speech Recognition and Understanding.IEEE Signal Processing Society,2011.

[6] STOLCKE A.SRILM-an extensible language modeling toolkit[C].Seventh International Conference on Spoken Language Processing,2002.

[7] Liu Yiqun,Chen Fei,Kong Weize,et al.Identifying Web spam with the wisdom of the crowds[J].ACM Transaction on the Web,2012,6(1):1-30.



作者信息:

楊  維,張才俊,馬永波

(國家電網客服中心 信息技術部,天津300000)

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
性色一区二区| 欧美激情欧美狂野欧美精品| 亚洲欧洲一区二区在线播放 | 在线观看欧美日韩| 国产一区二区毛片| 国产日韩欧美一区二区三区在线观看 | 国产精品入口夜色视频大尺度 | 亚洲欧洲综合另类| 亚洲福利视频在线| 久久精品99国产精品酒店日本| 亚洲欧美久久久| 亚洲视频在线一区| 亚洲午夜精品国产| 亚洲一区三区电影在线观看| 一区二区三区日韩精品| 正在播放亚洲一区| 亚洲一区二区免费视频| 亚洲欧美激情在线视频| 午夜一区二区三区不卡视频| 欧美一区二区三区免费大片| 欧美一区二区在线免费观看| 久久精品视频在线| 亚洲三级性片| 99精品99| 一本一本久久| 亚洲尤物影院| 久久av一区二区| 久久亚洲春色中文字幕| 欧美成ee人免费视频| 欧美久久久久| 国产精品vvv| 国产日韩欧美成人| 黄色成人av| 亚洲电影免费观看高清| 亚洲欧洲一区二区在线播放| 亚洲精品一区二区三区不| av成人免费在线| 亚洲一二三区在线观看| 欧美亚洲视频在线观看| 亚洲高清不卡一区| 夜夜夜久久久| 久久国产精品99国产精| 久热爱精品视频线路一| 欧美日韩成人综合| 国产九九精品视频| 在线观看成人小视频| 99国产成+人+综合+亚洲欧美| 亚洲一区二区三区国产| 亚洲电影免费观看高清完整版在线观看| 亚洲精品在线观| 亚洲女女女同性video| 久久精品人人爽| 欧美韩日一区二区三区| 国产精品久久久久久亚洲毛片| 国产三级精品三级| 亚洲国产精品久久久久秋霞蜜臀 | 一本一本久久a久久精品综合麻豆 一本一本久久a久久精品牛牛影视 | 欧美制服第一页| 欧美 日韩 国产在线 | 欧美性视频网站| 国产综合色精品一区二区三区| 亚洲激情网站| 亚洲制服av| 亚洲人成网站777色婷婷| 亚洲一区二区三区免费在线观看| 久久丁香综合五月国产三级网站| 欧美高清视频在线播放| 国产精品黄页免费高清在线观看| 激情自拍一区| 亚洲桃色在线一区| 最近看过的日韩成人| 亚洲一本视频| 久久野战av| 国产精品成人在线观看| 樱花yy私人影院亚洲| 亚洲网站在线观看| 亚洲精品偷拍| 欧美中文字幕不卡| 欧美日韩亚洲一区二区三区在线观看| 国产欧美一区二区精品忘忧草 | 亚洲欧美在线视频观看| 欧美国产精品人人做人人爱| 国产欧美精品一区aⅴ影院| 亚洲人成小说网站色在线| 久久国产精品久久久久久久久久| 亚洲网址在线| 欧美二区在线看| 国产一区二区中文| 亚洲一区尤物| 一区二区三区蜜桃网| 蜜桃av久久久亚洲精品| 国产欧美日韩中文字幕在线| 99综合精品| 亚洲精品久久视频| 久久麻豆一区二区| 国产精品综合| 亚洲午夜激情在线| 一本久道久久综合婷婷鲸鱼 | 欧美国产视频一区二区| 黑人中文字幕一区二区三区| 亚洲在线中文字幕| 亚洲一区二区三区视频播放| 欧美激情一区二区久久久| 一区精品久久| 亚洲高清不卡一区| 久久久久欧美精品| 国产日产欧美a一级在线| 一区电影在线观看| 一区二区三区高清在线| 欧美成人免费在线| 亚洲成人在线视频网站| 亚洲电影免费在线| 久久久福利视频| 国产亚洲一区二区在线观看| 亚洲午夜精品久久久久久app| 一区二区三区 在线观看视频| 欧美激情导航| 亚洲国产一区在线| 亚洲精品亚洲人成人网| 免费视频亚洲| 亚洲第一福利社区| 亚洲欧洲综合另类| 欧美成人午夜77777| 亚洲国产精品www| 亚洲国产视频直播| 美女啪啪无遮挡免费久久网站| 一区二区三区在线不卡| 久久精品欧美| 免费成人你懂的| 在线看欧美视频| 最新高清无码专区| 欧美99在线视频观看| 亚洲国产成人久久| 日韩亚洲欧美成人一区| 欧美片在线观看| 日韩天堂在线视频| 亚洲香蕉视频| 国产精品入口尤物| 欧美一区二区啪啪| 美女网站在线免费欧美精品| 亚洲国产精品毛片| 一区二区激情小说| 国产精品无人区| 欧美一二区视频| 久久久www| 亚洲福利专区| 亚洲视频福利| 国产欧美日韩亚州综合| 亚洲国产精品99久久久久久久久| 欧美国产另类| 在线一区观看| 久久精品一区二区三区不卡牛牛 | 一区二区三区久久| 欧美一区二区久久久| 狠狠网亚洲精品| avtt综合网| 国产精品视频导航| 久久国产欧美精品| 欧美极品在线播放| 亚洲一二三区视频在线观看| 久久精品久久99精品久久| 亚洲国产一区二区三区a毛片| 亚洲天堂免费观看| 国产在线观看一区| 一区二区三区|亚洲午夜| 国产精品自拍小视频| 亚洲肉体裸体xxxx137| 国产精品免费看| 亚洲国产精品久久| 欧美色视频在线| 欧美中文在线视频| 欧美美女bb生活片| 亚洲欧美综合网| 欧美精品色网| 性欧美暴力猛交另类hd| 欧美精品一区二区在线播放| 亚洲综合色网站| 欧美激情精品| 欧美一区激情| 欧美日韩午夜在线| 久久xxxx| 欧美视频福利| 亚洲国产日韩欧美在线图片| 欧美性猛交xxxx免费看久久久| 亚洲电影在线观看| 国产精品区一区二区三区| 亚洲日韩欧美视频| 国产日韩欧美另类| 在线视频欧美一区| 影音国产精品| 久久成人综合视频| 夜夜嗨av一区二区三区中文字幕| 裸体歌舞表演一区二区| 亚洲尤物影院| 欧美日本中文字幕| 亚洲国产精品一区二区尤物区| 国产精品萝li| 一区二区日韩伦理片| 在线观看欧美日韩国产| 欧美在线观看一区二区|