《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 最大匹配算法研究
最大匹配算法研究
來源:微型機與應用2012年第8期
萬 莛
(武漢理工大學 計算機科學與技術學院, 湖北 武漢430063)
摘要: 最大匹配算法是中文分詞中最常用的方法,但其有著過分依賴于詞典的弊端。對最大匹配算法進行了深入探討與研究,使用n-gram技術更新詞典解決其弊端,從而提高分詞效果。最后通過雙向匹配算法與n-gram相結合的實驗驗證了該方案的可行性,并對該方案進行了總結。
Abstract:
Key words :

摘  要: 最大匹配算法是中文分詞中最常用的方法,但其有著過分依賴于詞典的弊端。對最大匹配算法進行了深入探討與研究,使用n-gram技術更新詞典解決其弊端,從而提高分詞效果。最后通過雙向匹配算法與n-gram相結合的實驗驗證了該方案的可行性,并對該方案進行了總結。
關鍵詞: 中文分詞;最大匹配;n-gram;詞頻;雙向匹配

    作為計算機信息處理中最基礎、最關鍵的技術,中文分詞一直是人們研究的熱點。中文分詞就是將連續(xù)的漢字序列按照一定的規(guī)律分割成一個個單獨的詞的過程[1]。在英文句子中,單詞之間是以空格作為自然分界符的,所以英文分詞比較簡單;而中文以字為基本單位,將一序列字串聯(lián)在一起形成句子,從而表達意思,中文的句和段能通過明顯的分界符來劃分,但是詞沒有一個形式上的分界符,所以中文分詞比英文分詞相對困難許多。中文分詞方法總結起來大致可分為三大類:基于詞典直接匹配的分詞方法、基于規(guī)則和理解的分詞方法和基于統(tǒng)計模型的分詞方法[2]。本文主要討論基于詞典匹配算法中的最大匹配算法,針對其過分依賴詞典這一弊端進行了探討并提出了對策。
1 最大匹配算法
    最大匹配算法是最常用也是最基本的字符串匹配算法之一。它能夠保證切分出來的詞長度最大,同時易于實現(xiàn)[3]。最大匹配算法包括正向最大匹配算法、逆向最大匹配算法和雙向最大匹配算法。
1.1 正向最大匹配算法
    正向最大匹配算法流程[4]如圖1所示。

    以“中華人民共和國簡稱中國”為例,設定取詞長度n為8,待匹配字符串為s,按照上述步驟處理過程為:
    (1)s為“中華人民共和國簡”,查找詞典進行匹配操作,發(fā)現(xiàn)沒有該詞;
    (2)s去掉最后一個字,變?yōu)?ldquo;中華人民共和國”,查找詞典進行匹配操作,發(fā)現(xiàn)該詞,將該詞存入結果文檔中;
    (3)更新s,發(fā)現(xiàn)剩余的字“簡稱中國”長度不足8,所以s為“簡稱中國”,查找詞典進行匹配操作,發(fā)現(xiàn)沒有該詞;
    (4)s去掉最后一個字,變?yōu)?ldquo;簡稱中”,查找詞典進行匹配操作,發(fā)現(xiàn)沒有該詞;
    (5)s去掉最后一個字,變?yōu)?ldquo;簡稱”,查找詞典進行匹配操作,發(fā)現(xiàn)該詞,將其存入結果文檔中;
    (6)更新s,發(fā)現(xiàn)剩余的字“中國”長度不足8,所以s為“中國”,查找詞典進行匹配操作,發(fā)現(xiàn)該詞,將其存入結果文檔中;
    (7)更新s,發(fā)現(xiàn)s為空,至此分詞操作結束。
    分詞結果為“中華人民共和國/簡稱/中國”。
1.2 逆向最大匹配算法
    逆向最大匹配算法與正向最大匹配算法流程相似[5],只是取詞操作與待匹配字串更新操作不同。逆向最大匹配算法從文檔末尾開始進行取詞,匹配不成功刪除的是待匹配字符串的第一個字而不是最后一個。
1.3 雙向最大匹配算法
    將正向最大匹配算法與逆向最大匹配算法相結合所產(chǎn)生的算法即是雙向最大匹配算法,它能夠選取正向最大匹配算法和逆向最大匹配算法中分詞效果較好的一方,以提高分詞效果。
1.4 最大匹配算法的問題
    最大匹配算法存在以下問題:(1)待匹配字符串最大長度的設定困難,過長易造成效率低,過短則造成分詞不精確;(2)對詞典依賴程度過大,分詞效果取決于詞典。
2 n-gram技術

 


    隨著時間推移,肯定有大量新詞產(chǎn)生。為了豐富詞典,本實驗采用n-gram技術擴充詞典。n-gram就是對一個字序列進行分割,分割產(chǎn)生的字符串是該字序列的子串[6]。例如:對“中華人民共和國簡稱中國”進行n-gram 2元切分,得到2元組:中華|華人|人民|民共|共和|和國|國簡|簡稱|稱中|中國。
    本實驗中,n-gram擴充詞典步驟[7]如下:
    (1)選擇語料庫,本次實驗選擇2010年10月14日~18日參考消息作為預料庫;
    (2)對語料庫進行預處理,將數(shù)字、標點、字母等全部刪掉,只剩下漢字;
    (3)進行切分并統(tǒng)計詞頻,本次實驗最大詞長為8,所以切分為2元組至8元組,詞頻統(tǒng)計如表1所示。

    (4)選取候選詞。如圖2所示,根據(jù)觀察,當設置使用詞頻大于5的詞作為候選詞時,可靠性較高。所以本次實驗設定候選詞的詞頻數(shù)大于5。


    (5)使用候選詞對詞典進行更新。
3 實驗
    為了提高分詞效果,本次實驗采用雙向匹配算法同時使用n-gram技術來負責詞典的更新操作。
    由于逆向最大匹配算法比正向最大匹配算法有更高的精度[8],所以本次實驗中雙向匹配算法的選擇策略是:當正向最大匹配分詞所分出的詞數(shù)小于逆向最大匹配算法所分出的詞數(shù)時,分詞結果采用正向最大匹配所得結果;否則使用逆向最大匹配算法所得結果。
    本次實驗代碼采用java編寫,分詞算法中使用的方法主要有:(1)public StringBuffer result(String s,Set<String> dic)。用一個StringBuffer來存儲結果,并返回。參數(shù)s表示從待分詞文檔中讀到的行字符串,dic表示詞典。(2)public void segment(String max,String s, Set<String> dic)。參數(shù)max表示待匹配字符串。(3)public void n_gram()。n_gram的實現(xiàn),主要使用HashMap<String,Integer>,其中String用來存儲詞,Integer存儲詞頻。
    在未進行詞典更新操作之前,對“胡錦濤提出了科學發(fā)展觀”進行分詞操作得到的結果是“胡錦濤/提出/了/科學發(fā)展/觀”;進行詞典更新之后,“科學發(fā)展觀”成為單獨一詞,結果為“胡錦濤/提出/了/科學發(fā)展觀”,說明使用n-gram對詞典進行更新的確能起到提高分詞效果的作用。
    本文首先對最大匹配算法進行了詳細的闡述,繼而提出最大匹配算法的不足之處,即對詞典依賴程度過大,詞典的好壞直接決定了分詞的質(zhì)量。為解決該問題,提出使用n-gram技術來進行詞典的自我更新,提高詞典質(zhì)量,從而提高最大匹配算法分詞效果。通過實驗驗證了該方法的可行性。但是仍有不足之處:第一是對用來更新詞典的語料庫要求較高,語料庫必須具有代表性,能包含當前社會所使用的主流詞語;其次語料庫必須足夠大才能得到更好的效果;再次更新詞典對計算機性能消耗較大,必須選擇合理的時間進行更新操作。
參考文獻
[1] 周宏宇,張政.中文分詞技術綜述[J].安陽師范學院學報,2010(2):54-56.
[2] 劉春輝.基于優(yōu)化最大匹配的中文分詞方法研究[D].秦皇島:燕山大學,2009.
[3] 林浩,韓冰,楊樂華.一種基于改進最大匹配快速中文分詞算法[J].科技創(chuàng)新導報,2009(9):248.
[4] 趙源.基于最大匹配的中文分詞改進算法研究[J].科技信息,2010(35):487,496.
[5] 王瑞雷,欒靜,潘曉花,等.一種改進的中文分詞正向最大匹配算法[J].計算機應用與軟件,2011,28(3):195-197.
[6] 吳勝遠.一種漢語分詞方法[J].計算機研究與發(fā)展,1996,33(4):306-311.
[7] 李文,洪親,滕忠堅,等.基于n-gram的字符串分割技術的算法實現(xiàn)[J].計算機與現(xiàn)代化,2010(9):85-87.
[8] 張磊,張代遠.中文分詞算法解析[J].電腦知識與技術,2009,5(1):192-193.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權禁止轉(zhuǎn)載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
老牛影视一区二区三区| 国产精品h在线观看| 一区二区国产在线观看| 久久精品亚洲热| 午夜影院日韩| 亚洲欧美日韩电影| 亚洲图中文字幕| 夜夜夜久久久| 亚洲六月丁香色婷婷综合久久| 一区在线视频| 国外精品视频| 国产亚洲制服色| 国产亚洲精品久| 国产欧美日韩精品一区| 国产毛片久久| 国产欧美1区2区3区| 国产精品一区二区a| 国产精品久久久91| 国产精品你懂的在线欣赏| 国产精品盗摄久久久| 国产精品久久久久99| 国产精品视频不卡| 国产日韩欧美a| 国产视频一区二区三区在线观看| 国产精品尤物| 国产色视频一区| 国产亚洲网站| 一区二区三区自拍| 亚洲福利在线视频| 亚洲激情成人| 亚洲免费av电影| 中日韩午夜理伦电影免费| 亚洲视频axxx| 午夜精品久久久久久久99热浪潮| 性欧美办公室18xxxxhd| 欧美在线精品一区| 最新国产拍偷乱拍精品| 日韩视频在线永久播放| 亚洲视频一区二区在线观看| 亚洲免费一级电影| 久久久噜噜噜久噜久久 | 久久aⅴ国产欧美74aaa| 久久久久久综合| 免费亚洲一区二区| 欧美日韩系列| 国产日韩精品一区二区| 在线观看国产日韩| 日韩视频一区| 亚洲欧美视频一区二区三区| 久久精品国亚洲| 亚洲免费不卡| 午夜精彩国产免费不卡不顿大片| 久久国产日韩| 欧美成人精品1314www| 欧美三区在线观看| 国产欧美精品日韩精品| 亚洲第一视频网站| 一本色道久久99精品综合| 欧美一区二区三区的| 亚洲黄色精品| 亚洲视频一区二区| 久久久久国产精品www| 欧美另类一区| 国产欧美日本| 亚洲国产一区视频| 午夜精品三级视频福利| 99re8这里有精品热视频免费| 性欧美大战久久久久久久久| 免费久久99精品国产| 国产精品久久一区主播| 亚洲高清av| 亚洲欧美日韩一区二区三区在线观看 | 亚洲永久在线观看| 最新国产の精品合集bt伙计| 亚洲免费在线观看| 免费高清在线一区| 国产精品色婷婷| 亚洲国产第一| 午夜精品一区二区三区电影天堂 | 亚洲精品久久久久中文字幕欢迎你| 亚洲色图在线视频| 麻豆精品在线视频| 国产精品视频免费一区| 亚洲国产一区视频| 欧美在线视频一区| 亚洲欧美日韩综合国产aⅴ| 欧美成人免费在线观看| 国产视频观看一区| 99精品久久久| 亚洲精品久久久久久久久久久久| 久久国产精品久久久| 欧美日韩视频免费播放| 亚洲国产成人av好男人在线观看| 午夜精品久久久久| 中文一区字幕| 欧美激情一区二区三级高清视频 | 国产欧美日韩专区发布| 99热精品在线| 亚洲先锋成人| 亚洲欧美韩国| 欧美大片va欧美在线播放| 国产精品视频免费一区| 亚洲精品影视| 亚洲人成网站精品片在线观看| 久久国产精品久久国产精品| 欧美日韩综合久久| 亚洲国产精品成人精品| 欧美在线视频全部完| 亚洲一区三区视频在线观看| 欧美福利小视频| 国产在线观看91精品一区| 亚洲综合成人在线| 亚洲一区二区精品视频| 欧美人与禽猛交乱配视频| 亚洲国产成人精品久久| 亚洲国产精品一区在线观看不卡| 欧美在线视频二区| 国产精品午夜在线| 亚洲午夜精品17c| 亚洲视频一区二区| 欧美日本在线视频| 亚洲精品免费观看| 99re6这里只有精品| 欧美国产日韩在线观看| …久久精品99久久香蕉国产| 亚洲国产成人av好男人在线观看| 久久久久久久精| 黄色av日韩| 亚洲国产欧美一区二区三区久久 | 亚洲调教视频在线观看| 亚洲一区二区三区精品在线观看| 欧美色另类天堂2015| 夜夜精品视频| 亚洲与欧洲av电影| 国产精品日本一区二区| 亚洲在线日韩| 久久精品动漫| 狠狠色综合色区| 亚洲欧洲在线一区| 欧美日本一道本| 宅男精品导航| 香蕉久久精品日日躁夜夜躁| 国产精品永久免费在线| 欧美在线视频网站| 欧美 日韩 国产精品免费观看| 亚洲第一主播视频| 一本色道久久综合狠狠躁的推荐| 欧美日韩亚洲成人| 亚洲免费中文| 久久免费99精品久久久久久| 在线观看国产成人av片| aa级大片欧美| 国产精品日韩欧美一区| 欧美在线观看网站| 欧美大色视频| 亚洲视频在线观看| 久久超碰97人人做人人爱| 一区视频在线看| 一区二区三区精品久久久| 欧美午夜一区| 欧美一级视频| 你懂的成人av| 正在播放亚洲| 久久五月激情| 日韩视频在线一区二区三区| 午夜精品久久| 激情欧美一区二区三区在线观看 | 午夜精品国产更新| 激情久久综合| 一区二区三区导航| 国产免费观看久久黄| 亚洲精品国产精品久久清纯直播 | 国产午夜亚洲精品羞羞网站| 亚洲黑丝在线| 欧美午夜视频在线| 久久高清免费观看| 欧美日韩国产页| 香蕉成人伊视频在线观看| 欧美成人免费网站| 亚洲欧美国产精品va在线观看| 女仆av观看一区| 亚洲一区黄色| 欧美成人精品不卡视频在线观看 | 亚洲一区二区三区四区五区黄| 久久久亚洲国产美女国产盗摄| 亚洲免费观看高清完整版在线观看熊| 性欧美8khd高清极品| 亚洲激情电影在线| 久久精品理论片| 亚洲看片网站| 久久综合色播五月| 亚洲一二三区视频在线观看| 美日韩精品免费| 亚洲主播在线| 欧美日韩1区| 久久精品99国产精品酒店日本| 欧美色视频日本高清在线观看| 欧美专区第一页| 国产精品久久久久一区二区三区| 亚洲美女视频在线观看|