《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于Seq2Seq與Bi-LSTM的中文文本自動校對模型
基于Seq2Seq與Bi-LSTM的中文文本自動校對模型
2020年電子技術應用第3期
龔永罡,吳 萌,廉小親,裴晨晨
北京工商大學 計算機與信息工程學院 食品安全大數據技術北京市重點實驗室,北京100048
摘要: 針對中文文本自動校對提出了一種新的基于Seq2Seq和Bi-LSTM結合的深度學習模型。與傳統的基于規則和概率統計的方法不同,基于Seq2Seq基礎結構改進,加入了Bi-LSTM單元和注意力機制,實現了一個中文文本自動校對模型。采用F0.5與GLEU指標評價,通過公開的數據集進行不同模型的對比實驗。實驗結果表明,新模型能有效地處理長距離的文本錯誤以及語義錯誤,Bi-RNN以及注意力機制的加入對中文文本校對模型的性能有顯著提升。
中圖分類號: TN06;TP312
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.190221
中文引用格式: 龔永罡,吳萌,廉小親,等. 基于Seq2Seq與Bi-LSTM的中文文本自動校對模型[J].電子技術應用,2020,46(3):42-46.
英文引用格式: Gong Yonggang,Wu Meng,Lian Xiaoqin,et al. Chinese text automatic proofreading model based on Seq2Seq and Bi-LSTM[J]. Application of Electronic Technique,2020,46(3):42-46.
Chinese text automatic proofreading model based on Seq2Seq and Bi-LSTM
Gong Yonggang,Wu Meng,Lian Xiaoqin,Pei Chenchen
Beijing Key Laboratory of Food Safety Big Data Technology,College of Computer and Information Engineering, Beijing Technology and Business University,Beijing 100048,China
Abstract: A new deep learning model based on Seq2Seq and Bi-LSTM is proposed for Chinese text automatic proofreading. Different from the traditional rule-based and probabilistic statistical methods, a Chinese text automatic proofreading model is implemented by adding Bi-LSTM unit and attention mechanism based on Seq2Seq infrastructure improvement. Comparative experiments of different models were carried out through the open data sets. Experimental results show that the new model can effectively deal with long-distance text errors and semantic errors. The addition of Bi-RNN and attention mechanism can improve the performance of Chinese text proofreading model.
Key words : Chinese text proofreading;recurrent neural network;Seq2Seq;natural language proceessing

0 引言

    隨著出版行業電子化的不斷發展,其中中文文本校對環節的任務越來越重,使用傳統的人工校對顯然無法滿足需求。因此,中文文本自動校對技術的發展就顯得尤其重要。

    本文采用深度學習中的循環神經網絡(Recurrent Neural Networks)進行文本自動校對。其特點是能處理任意長度的輸入和輸出序列,因此被廣泛應用在自然語言處理(Natural Language Processing)任務中。在機器翻譯任務上,CHO K等在2014年發表的論文[1]中首次提出基于循環神經網絡設計的Seq2Seq模型,并且在多個自然語言處理問題上取得突破。因此,Seq2Seq模型的提出為文本校對領域的研究提供了一種新的思路與方法。

    目前,基于深度學習的中文文本自動校對技術的研究仍處于起步階段,本文著重研究了基于Seq2Seq模型與BiRNN網絡結構改進的網絡模型,使其適用于中文文本校對問題,為中文文本校對領域提供了一種新的方法。

1 背景

1.1 中文文本校對的研究現狀

    目前,國內在中文文本校對方面的研究主要采用以下3種方法:(1)基于拼音的中文文本校對[2];(2)基于字的中文文本校對[3];(3)基于上下文的中文文本校對[4]。這三種方法采用的校對規則又分為3類:(1)利用文本的特征,如字形特征、詞性特征或上下文特征;(2)利用概率統計特性進行上下文接續關系的分析[5];(3)利用語言學知識,如語法規則、詞搭配規則等[6]

1.2 Seq2Seq模型

    基礎的Seq2Seq模型包含三部分,即Encoder端、Decoder端以及連接兩者的中間狀態向量[7]。Encoder編碼器將輸入序列X=(x1,…,xT)編碼成一個固定大小的狀態向量S傳給Decoder解碼器,解碼器通過對S的學習生成輸出序列Y=(y1,…,yK)[8]。解碼器主要基于中間狀態向量S以及前一時刻的輸出y(t-1)解碼得到該時刻t的輸出y(t)[9]。其結構如圖1所示。

rgzn1-t1.gif

1.3 Bidirectional-LSTM

    LSTM(Long Short-Term Memory)是門控制循環神經網絡的一種。標準的RNN網絡能夠存儲的信息很有限,并且輸入對于輸出的影響隨著網絡環路的不斷遞增而衰退[10];而LSTM在面對較長的序列時,依然能夠記住序列的全部信息。LSTM是一種擁有輸入門、遺忘門、輸出門3個門結構的特殊網絡結構[11]。LSTM通過這些門的結構讓信息有選擇性地影響網絡中每個時刻的狀態[12]。LSTM的結構如圖2所示。

rgzn1-t2.gif

rgzn1-gs1-8.gif

    Bi-RNN克服了單向RNN當前時刻的輸出與之后時刻的輸出無關的問題[14]。在Bi-RNN中,將一個RNN網絡拆成了兩個方向,不僅有從左向右的前向連接層,還存在一個從右向左的反向連接層,這兩個連接層連接同一個輸出層,從而在保證網絡可以處理較長序列不發生遺忘的同時,又保證了能夠提供給輸出層輸入序列的完整上下文信息[15]。其結構如圖3所示。

rgzn1-t3.gif

2 模型的實現

2.1 數據預處理

    模型的基本架構是Seq2Seq模型。在構造模型之前,需要先對語料進行預處理,包括以下5個部分:加載數據;清洗數據;切詞編碼;分析統計;語料轉換。加載數據的時候需要對語料文本進行切分,以句子為單位,即每一行代表一個完整的句子,以此讀入訓練數據。切詞部分可以借助一些成熟的中文分詞工具,如 jieba分詞。完成分詞再加載的過程中,要注意同時清洗數據,去掉數字、特殊字符等[16],再以詞為單位對其進行編碼錄入詞庫。

    完成詞庫到數字的映射之后,需再根據這種映射關系完成數字到詞庫的反映射。分析數據是針對訓練語料進行統計性的描述,了解訓練數據的一些信息,例如:訓練語句的個數、最長與最短句含有的單詞數、訓練語料構成的詞庫中非重復詞的個數等。最后可按照句子從少到多進行排列,優化訓練過程[17]

2.2 Bi-LSTM的Seq2Seq網絡模型

2.2.1 基本Seq2Seq結構的局限性

    在機器翻譯、文摘生成等問題上,基礎的Seq2Seq模型一直都有不錯的表現,但是針對文本校對這類問題,其結構并不能直接被使用。Encoder將輸入編碼為固定大小狀態向量的過程首先是一個“信息有損壓縮”的過程,如果信息量越大,那么這個轉化向量的過程對信息的損失就越大,同時,隨著sequence length的增加,意味著時間維度上的序列很長,RNN模型也會出現梯度彌散[18]。其次,基礎的模型連接Encoder和Decoder模塊的組件僅僅是一個固定大小的狀態向量,這使得Decoder無法直接去關注到輸入信息的更多細節[10]。最后,由于RNN網絡的特性,當前時刻的輸出只與當前時刻的輸入和之前的輸入有關[19],因此模型對于信息的捕獲不夠完整。

2.2.2 模型的構建

    校對模型由編碼端、解碼端組成,編碼端是由LSTM單元組成的Bi-RNN網絡。在中文文本自動校對中,輸入序列是標記為rgzn1-2.2.2-x1.gif的完成分詞的中文語句文本,其中上角標j代表句子在語料庫中的位置,下角標代表該詞在第i句中的位置。文本中的每一個詞在輸入到LSTM網絡前要轉化成機器可識別的數字編碼。由于LSTM只能處理定長的數據,因此需要保證輸入語料的長度Tx保持固定。通過預處理部分可以得到最長句子的詞數,假設詞數Tx=20,則應對不足20個詞長的句子進行<PAD>補全。編碼端接收每一個中文詞語的數字形式和其上一個時間點的隱層狀態,由于采用Bi-RNN網絡,輸出的是當前時間點的隱層狀態,結構如圖4所示,其展示了兩個雙向的LSTM單元。

rgzn1-t4.gif

rgzn1-gs9-12.gif

    解碼端是一個帶注意力機制的RNN網絡,其在t時刻生成一個詞時可以利用到此前的全部上文信息。解碼端接收目標句子中上一個時間點的中文詞語和上一個時間點的隱層狀態與注意力機制產生的語義向量,如圖5所示。

rgzn1-t5.gif

     rgzn1-gs13-14.gif

    由于注意力機制的存在,每個時刻生成詞時對輸入序列各個詞的關注程度是不一樣的,因此編碼端在每個時刻給出的Ci是不一樣的。其計算公式如式(15)所示。其中,hj表示編碼端的第j個詞的隱層狀態,αij表示編碼端的第j個詞與解碼端的第i個詞之間的權值,其計算公式如式(16)所示。在式(16)中,eij是一個softmax模型輸出,概率值的和為1。eij表示一個對齊模型,用于衡量編碼端的第j個詞相對于解碼端的第i個詞的對齊程度(影響程度)。對齊模型eij的計算方式如式(17)所示。

     rgzn1-gs15-17.gif

    eij的計算方法有很多種,不同的計算方式,代表不同的Attention模型,本文使用的是Soft Attention模型,它可以被嵌入到模型中去,直接訓練。Soft Attention模型在求注意力分配概率的時候,對于輸入句子X中任意一個詞都給出概率。結構如圖6所示。

rgzn1-t6.gif

    圖6展示了在預測第t個時間段的輸出yt時的結構。通過對Encoder層狀態的加權,從而掌握輸入語句中的所有細節信息,最后將語義向量和解碼端的隱層狀態合拼起來,計算最后的輸出概率。

    以“我愛機器學習”為例,假設當前時刻正準備校對“機器”這個詞,此時需要計算語義向量,如圖7所示。

rgzn1-t7.gif

    圖7中,St-1代表解碼端前一輪的隱層狀態,即代表了校對“機器上一個詞”階段的輸出隱層狀態;a1~a4分別代表了編碼端每個詞輸入到Bi-RNN后的隱層狀態。Attention根據每個Encoder輸出和Decoder的上一次隱層給出每個邊的得分,然后和上一次訓練的預測值拼合到一起,和Decoder端上一時刻的隱層作為輸入進入當前時刻的RNN。

2.2.3 模型的訓練與優化

    在完成了模型的構建后,還需要構造解碼端的訓練與預測函數,并將訓練與預測分開。因為解碼器會將前一時刻的輸出作為當前時刻的輸入,如果前一時刻的輸入不夠準確,那么就會影響后續的預測。所以在訓練過程中,需要知道每一個輸入到網絡中的句子的正確形式,進而采用強制正確輸入來進行訓練,這種方式叫做Teacher Forcing,如圖8所示。

rgzn1-t8.gif

    前面已經介紹過解碼端某一時刻的概率分布,所以對于全部的訓練樣本,需要做的就是在整個訓練樣本下,所有樣本的P(y1,…,yT|x1,…,xT)概率之和最大,最大化條件似然函數,得到最佳的校對結果。模型使用grid search設計,以便找到最佳架構和超參數值。

3 結果與分析

    實驗使用阿里云服務器GN2作為訓練服務器,使用TensorFlow框架,共進行了4組實驗,分別用來測試Seq2Seq、BiRNNSeq2Seq、帶注意力機制的Seq2Seq以及與這兩者結合在一起的4種模型在中文文本校對中的性能。實驗所使用的數據集來源于2018 NLPCC共享的訓練數據Task 2以及一部分搜狗實驗室提供的開源中文語料庫,全部的數據集包含了1 327 608個句子對,分別用Src和Trg表示,Src代表原句,既可能為正確的句子也可能為包含用詞錯誤的句子;Trg表示目標輸出,其均為對應Src的正確句子,其中不包含驗證集。將全部數據集按比例(99.5:0.5)隨機分成兩部分:一個驗證集,其中包含5 310個句子對,源句與目標句子之間存在不一致;另一個訓練集包含所有剩余的1 322 298個句子對。測試數據包含2 000個句子對。數據集的統計數據如表1所示。

rgzn1-b1.gif

    表1展示了訓練驗證和測試數據的統計。.Src是指源錯誤的句子,.Trg是指目標正確的句子。

    為了合理客觀地評價模型,實驗采用廣泛使用的MaxMatch Scorer工具包進行評估。中文文本校對實驗結果如表2所示,其中F0.5、F1、BLEU為評價分數。

rgzn1-b2.gif

    實驗結果表明,Bi-RNN以及注意力機制均有助于提升中文文本校對模型的性能,并且二者結合起來可以進一步改善系統的性能。由于模型的實驗結果受數據量以及迭代次數的影響,因此在此基礎上引入更多的數據做訓練,并且通過改善訓練方法,如引入流暢度學習、推斷機制等進一步提升模型校對的準確率。

4 結論

    本文給出了基于Seq2Seq和Bi-LSTM設計的中文文本校對模型并且通過公開的數據集全面驗證了模型的性能。模型的核心內容是在引入Bi-LSTM單元和注意力機制的同時,用Seq2Seq結構網絡對中文語料庫進行學習,挖掘詞與詞之間的關系,并以此作為中文文本校對的依據。雖然由于訓練量的原因,在結果上并未達到最好的效果,但是可以看出該模型在中文文本校對領域里具備了很大的潛力,并可以擴展應用在多個中文自然語言處理領域。

參考文獻

[1] CHO K,MERRIENBOER B,GULCEHRE C.Learning phrase representations using RNN encoder–decoder for statistical machine translation[J].Computer Science,2014(v1):52-55.

[2] 張仰森,俞士汶.文本自動校對技術研究綜述[J].計算機應用研究,2006(6):8-12.

[3] 洛衛華,羅振聲.中文文本自動校對技術的研究[J].計算機研究展,2004,33(1):60-64.

[4] 劉亮亮,曹存根.中文“非多字錯誤”自動校對方法研究[J].計算機科學,2016(10):34-39.

[5] 謝剛.知識圖譜精化研究綜述[J].電子技術應用,2018,44(9):29-38.

[6] DE FELICE R,PULMAN S G.A classifier-based approach to preposition and determiner error correction in L2 English[C].Proceeding of the 22nd International Conference on Computational Linguistics.COLING 2008 22nd International Conference,2008:167-176.

[7] 吳巖,李秀坤,劉挺,等.中文自動校對系統的研究與實現[J].哈爾濱工業大學學報,2001(2):60-64.

[8] Chen Yongzhi,WU S H,Yang Pingche,et al.Improve the detection of improperly used Chinese characters in students essays with error model[J].International Journal of Continuing Engineering Education and Lifelong Learning,2012(v1):93-97.

[9] 吳林,張仰森.基于知識庫的多層級中文文本查錯推理模型[J].計算機工程,2012,38(20):21-25.

[10] 劉亮亮,王石,王東升,等.領域問答系統中的文本錯誤自動發現方法[J].中文信息學報,2013,27(3):77-83.

[11] 張仰森,唐安杰.面向政治新聞領域的中文文本校對方法研究[J].中文信息學報,2014,28(6):44-49.

[12] 字云飛,李業麗,孫華艷.基于深度神經網絡的個性化推薦系統研究[J].電子技術應用,2019,45(1):14-18.

[13] TAN Y,YAO T,CHEA Q,et al.Applying conditional random fields to Chinese shallow parsing[C].Proceedings of Clcling-2005,Mexico City,2005:167-176.

[14] KUDO T,YAMAMOTO K,MATSUMOTO Y.Applying conditional random fields to japanese morphological analysis[C].Natural Language Processing(Emnlp-2004),Barcelona,2004:230-237.

[15] 王潔,喬藝璇,彭巖,等.基于深度學習的美國媒體“一帶一路”輿情的情感分析[J].電子技術應用,2018,44(11):102-106.

[16] 潘吳,顏車.基于中文分詞的文本自動校對算法[J].武漢理工大學學報,2009,31(3):18-20,28.

[17] PINTO D,MCCALLUM A,WEI X.Table extraction using conditional random fields[C].26th ACM SIGIR,Canada,2003:235-242.

[18] 張仰森,鄭佳.中文文本語義錯誤偵測方法研究[J].計算機學報,2017(3):63-68.

[19] ZHOU G D,SU J.Named entity recognition using an HMM-based chunk tagger[C].Proceedings of the 40th Annual Meeting of the ACL′2002,Philadelphia,2002:473-480.



作者信息:

龔永罡,吳  萌,廉小親,裴晨晨

(北京工商大學 計算機與信息工程學院 食品安全大數據技術北京市重點實驗室,北京100048)

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美日韩在线第一页| 香蕉成人伊视频在线观看| 欧美视频你懂的| 在线视频亚洲欧美| 宅男在线国产精品| 国产麻豆日韩| 久久久噜噜噜久噜久久| 91久久久国产精品| 日韩视频免费观看| 国产精品网站在线观看| 久久人人97超碰精品888| 日韩视频一区二区在线观看| 亚洲最新视频在线| 国产日本欧美一区二区三区| 免费看精品久久片| 日韩一级黄色片| 亚洲国产精品激情在线观看| 亚洲精品在线观看视频| 国产精品久久7| 久久久久久久性| 久久精品亚洲国产奇米99| 亚洲精品在线二区| 亚洲免费中文| 亚洲高清影视| 国产精品三级久久久久久电影| 欧美视频一区| 国产精品国产三级国产专区53| 国产精品久久久久久妇女6080 | 欧美一区二区三区四区在线| 久久99伊人| 日韩视频在线一区| 9久re热视频在线精品| 一区二区三区免费在线观看| 亚洲作爱视频| 亚洲男人第一网站| 欧美一级视频| 亚洲无亚洲人成网站77777 | 久久福利一区| 亚洲黄色av一区| 日韩午夜激情| 亚洲欧美另类在线| 亚洲精品乱码久久久久| 亚洲一二区在线| 精品成人国产| 国产日韩欧美精品| 国产综合久久久久久| 欧美午夜性色大片在线观看| 另类av一区二区| 久久精品官网| 午夜精品久久久久久久蜜桃app | 午夜精品一区二区三区四区 | 久久久一本精品99久久精品66| 欧美成人第一页| 久久国产精品一区二区三区四区| 久久精品综合| 欧美精品在线播放| 另类春色校园亚洲| 欧美日韩国产天堂| 蜜臀久久久99精品久久久久久| 欧美亚洲综合另类| 久热精品视频| 欧美三区免费完整视频在线观看| 国产精品综合网站| 亚洲国产cao| 亚洲专区欧美专区| 一区二区三区国产盗摄| 午夜激情亚洲| 亚洲综合导航| 亚洲福利小视频| 欧美综合二区| 日韩视频一区| 欧美一区二区三区视频免费| 免费亚洲电影在线观看| 国产精品久久77777| 亚洲高清123| 亚洲欧美一级二级三级| 99re热这里只有精品视频| 久久aⅴ乱码一区二区三区| 亚洲欧美成人精品| 麻豆精品视频| 国产精品一区二区视频| 亚洲人永久免费| 亚洲精品久久久蜜桃| 午夜久久一区| 一区电影在线观看| 久久人人97超碰人人澡爱香蕉| 欧美体内she精视频在线观看| 伊人久久亚洲影院| 亚洲高清在线| 欧美一区二区三区在线观看视频| 先锋影音一区二区三区| 99av国产精品欲麻豆| 久久综合九色| 国产日韩欧美亚洲| 韩国一区二区在线观看| 国产在线拍偷自揄拍精品| 一本色道久久综合| 亚洲欧洲午夜| 久久久久成人网| 国产欧美一区二区三区视频 | 亚洲精品美女久久久久| 久久久久国产精品一区二区| 国产精品久久午夜| 国产精品视频成人| 亚洲人成在线观看网站高清| 亚洲福利国产精品| 久久精品视频在线观看| 国产精品视频区| aa亚洲婷婷| 亚洲天堂网站在线观看视频| 亚洲一区免费网站| 欧美一级视频| 国产精品久久久久aaaa九色| 99精品视频网| 欧美在线关看| 欧美一级片在线播放| 国产精品久久久久久户外露出| 99视频热这里只有精品免费| 日韩小视频在线观看| 牛人盗摄一区二区三区视频| 一区在线播放| 亚洲国产欧美不卡在线观看| 久久一综合视频| 在线观看91精品国产麻豆| 最新69国产成人精品视频免费| 美女视频网站黄色亚洲| 亚洲春色另类小说| 日韩一级在线观看| 日韩午夜精品| 欧美屁股在线| 亚洲精品一区在线观看香蕉| 中文国产一区| 久久久久久久一区| 国产亚洲精品激情久久| 欧美影视一区| 久久久久九九九九| 黄色成人av网站| 亚洲国产欧美在线| 欧美高清视频一区二区三区在线观看 | 欧美在线观看日本一区| 国产日韩欧美在线播放| 久久av免费一区| 免费在线成人av| 亚洲精品国久久99热| 在线视频欧美日韩| 欧美午夜精品久久久久免费视| 一区二区三区久久| 香蕉av777xxx色综合一区| 国产亚洲aⅴaaaaaa毛片| 久久精品国产91精品亚洲| 一区二区三区视频观看| 欧美日韩国产小视频| 国产精品99久久久久久白浆小说| 亚洲免费一级电影| 国产亚洲欧美另类中文| 99精品国产在热久久婷婷| 亚洲综合电影| 国产一区二区精品| 亚洲精品国产精品国自产观看| 欧美日韩国产综合网| 亚洲伊人网站| 免费看的黄色欧美网站| 一本大道久久a久久精二百| 翔田千里一区二区| 黄色精品一区| 国产精品99久久久久久久vr| 国产欧美日韩视频在线观看| 亚洲日本无吗高清不卡| 国产精品久久久久一区二区三区| 欧美一区国产二区| 欧美激情一区三区| 激情丁香综合| 亚洲免费观看高清完整版在线观看熊| 欧美天天视频| 久久福利电影| 欧美视频日韩视频在线观看| 欧美在线精品免播放器视频| 欧美精品二区| 午夜久久影院| 欧美日韩系列| 亚洲第一精品福利| 久久精品五月| 亚洲理伦在线| 久久久久综合一区二区三区| av成人免费观看| 久久免费视频在线| 99精品国产99久久久久久福利| 久久精品99久久香蕉国产色戒| 亚洲国产欧美一区二区三区同亚洲 | 亚洲国产mv| 欧美新色视频| 亚洲全黄一级网站| 国产啪精品视频| 一本色道久久综合亚洲91| 国产一二精品视频| 一区二区国产日产| 黄色一区二区在线观看| 亚洲欧美国产77777| 亚洲电影免费在线| 欧美一区二区三区视频免费播放|