《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 綠網摘要提取系統算法研究
綠網摘要提取系統算法研究
來源:微型機與應用2013年第12期
龍 瓏1, 鄧 偉2
(1. 廣西師范學院 計算機與信息學院, 廣西 南寧530023; 2. 廣西腫瘤防治研究所, 廣西
摘要: 隨著互聯網的普及和發展, 傳統的文本摘要的提取方法已無法適應綠色網絡提供優質內容并過濾不良文本的社會需求。提出通過條件隨機場模擬對句子進行注解的方法提取文本摘要。實驗證明新方法提取文本的效果有效并可提供更好的過濾不良文本的服務。
Abstract:
Key words :

摘  要: 隨著互聯網的普及和發展, 傳統的文本摘要的提取方法已無法適應綠色網絡提供優質內容并過濾不良文本的社會需求。提出通過條件隨機場模擬對句子進行注解的方法提取文本摘要。實驗證明新方法提取文本的效果有效并可提供更好的過濾不良文本的服務。
關鍵詞: 綠色網絡; 提取信息; 不良文本; 過濾; 條件隨機場

    目前尚未發現“綠色網絡”權威定義,現階段只能將其理解為可預防網民患上網癮流行病的計算機網絡[1-2]。基于行為分析的綠色網絡系統軟件的設計目的是為了預防青少年感染不良的網癮行為。基于行為分析的綠色網絡系統中提取文本摘要子系統(下文稱綠網摘要提取系統)采用智能的方法濃縮文本信息,從而使基于行為分析的綠色網絡系統能快速有效地識別過濾對青少年有不良影響的文本,保留青少年獲得感興趣并對他們身心有益的文本。
    在如何快速準確提取文本摘要這個問題上,不少學者進行了大量有價值的研究。Baxendale提出引入句子位置判斷句子重要性的方法提取文本摘要[3]。Luhn列出高頻詞并打分,分數高的句子被認定為文本摘要句[4]。AONE C等提出基于TF-IDF樸素貝葉斯模型的算法提取文本摘要[5-7]。KUPIE C J等通過增加句長方法改進樸素貝葉斯模型的算法提取文本摘要[8]。金立左等提取文本摘要使用基于最大熵模型,增加了先驗概率,從而優于所有基于樸素貝葉斯模型的方法[9-11]。
    針對文本摘要更新較快和多樣性的特點,本文提出通過條件隨機場模擬對句子進行注解來達到提取文本摘要的方法。實驗表明該方法可有效地提取文本摘要,為綠色網絡系統是否過濾該文本提供依據。
1 綠網摘要提取系統摘要主要特征
    文本摘要具有三個基本的特征:源自文件、保留文本重要信息、長度短。因此要滿足以上特點,很多因素會影響一個句子是否被認為是文本摘要句。影響分為兩大類,第一類是句子自身因素,也稱單句特征;第二類是文本上下文信息因素,稱為關聯特征。
1.1 句子自身特征
    句子自身特征是指不涉及文本上下文信息也能體現出句子本身的特征。下文列舉出幾種句子自身因素。
    (1)長度特征,由于文本摘要基本不會出現過短或過長的句子,先過濾掉句子中的停用詞,然后以詞為單位計算目標句子的長度,最終本文算法選取最短和最長的閥值分別為38和6。
    (2)位置特征,位置因素是文本預料的重要特征因素,首句、尾句、段首和段尾是最重要的影響提取文本摘要的幾個特征,本文采用了首段、尾句、段首和段尾的位置特征因素。標記詞語特征,判斷摘要句的標記詞語,例如“表示”等,統計表明,約有30%句子含有標記詞語,本文算法利用這些詞語判斷摘要句。
    (3)高頻詞特征,高頻詞是指出現在目標文本頻率較高的句子,詞頻越高,證明該詞語的重要程度越大,所在的句子代表性越強,本文算法在停用詞被過濾后,再度量使用高頻詞。
    (4)時間、數字及專有名詞特征,文章的焦點基本是命名實體,算法選擇句子時決定使用時間、數字以及專有名詞。
1.2 上下文關聯特征
     一個句子是否被綠網摘要提取系統選擇為摘要句,除了句子自身的特征影響外,受到上下文關聯特征的影響也是很大的。綠網摘要提取系統選擇兩種基本的關聯特征。
    (1)與文本標題相似度的關聯特征。文本信息包含在標題中,研究發現句子與標題相似度越大,則出現在摘要的可能性越大。
    (2)與文本其他句子的相似度的關聯特征。實際開發中綠網摘要提取系統把使用該特征看作尋找“高頻句”的相似過程,原理與高頻詞原理相似,建模公式為:
  

其中,x為綠網摘要提取系統目標文本;Length(x)為綠網摘要提取系統目標文本的長度,即系統目標文本所包含的句子數。
3 實驗測試結果及分析
3.1 實驗測試預料

    本文實驗的測試數據來源于廣西軟件測試中心,從搜狐、新浪、網易以及鳳凰網4個網站上采集了35 220篇文本,其中既有不宜青少年閱讀的文本,也有適合青少年閱讀的文本,將這些平均分為5等份,4份用于訓練,1份用于測試,測試使用交叉驗證方法。
3.2 實驗測試評測方法
    為了更好地評價綠網摘要提取系統測試實驗效果,采用準確率、召回率和F值3個標準指標來衡量,其中F值是本次測試最重要的評價指標。綠網摘要提取系統測試實驗結果的計算公式為:
 
    從表1的實驗結果可以看出,綠網摘要提取系統使用基本條件隨機場模型的綜合效果(即F值)好于系統使用其他兩種模型,召回率不如系統使用樸素貝葉斯模型。算法設計小組觀察標注的結果發現,當系統選取目標文本過長時,使用條件隨機場提取摘要句子分布會過于分散,位于文本中部的句子其位置特征相對分散,導致誤判,從而綠網摘要提取系統使用基本條件隨機模型提取目標文本的摘要的召回率低一些。算法設計小組對本次測試統計發現,有54%的文本超過10句,24%的文本超過20句,文本越長,綠網摘要提取系統使用基本條件隨機模型提取目標文本的摘要的效果越差。
    表2 列出了第二組測試的實驗結果。

 

 

    從表2實驗結果可以看出,綠網摘要提取系統使用合適的修正因子條件隨機場模型后,召回率提高了15.4%,綜合效果(F值)也提高了1.6%,在一定程度上提高了F值,取得更好的效果。
    綠網摘要提取系統采用增加修正因子的方法改進條件隨機模型可以克服目標文本因文本過長所造成的影響。從實驗效果來看,使用修正因子可以提高提取摘要的效果,今后可重點考慮在算法模型中增加更多因素的修正因子,以提高模型算法的提取效果。
參考文獻
[1] 寧葵,龍瓏,覃曉,等.綠色網絡不良內容語義分析方法研究[J].計算機應用研究,2010,27(12):4643-4645.
[2] 龍瓏,鄧偉.綠色網絡智能文摘算法研究[J].計算機應用, 2012,32(7):2030-2032.
[3] BAXENDALE P. Machine-made index for technical literature-an experiment[J]. IBM Journal of Research Development, 1958,2(4):354-361.
[4] LUHN H P. The automatic creation of literature abstracts[J].  IBM Journal of Research Development,1958,2(2):159-165.
[5] AONE C, OKUROWSKI M E, GORLINSKY J, et al. A  trainable summarize with knowledge acquired from robust NLP techniques[C].In Mani, I.and Maybury,M. T., editors, Advances in Automatic Text Summarization, 71-80. MIT Press. 1999.
[6] PANG B,LEE L,VAITHYANTHAN S. Thumbs up? Sentiment classification using machine learning techniques[C]. Processdings of the Conference on Empirical Methods in  Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2002:79-86.
[7] 何鳳英.基于語義理解的中文博文傾向性分析[J].計算機應用,2011,31(8):2130-2137.
[8] KUPIEC J, PENDERSEN J, CHEN F. A trainable document summarizer[C]. Proceedings of SIGIR‘95, 68-73,New York, NY,USA,1995.
[9] 金立左,袁曉輝,趙一凡,等.二維模糊劃分最大熵圖像分割算法[J].電子與信息學院,2002,2(8):1040-1048.
[10] 張龍凱, 王厚峰. 文本摘要問題中的句子抽取方法研究[J].中文信息學報,2012,26(2):97-101.
[11] 屈志毅,李一偉,張延堂,等.一種基于關鍵重復語義的最大熵文本分類[J].廣西師范大學學報(自然科學版), 2007,25(4):204-207.

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美 亚欧 日韩视频在线| 国产精品区一区二区三区| 亚洲与欧洲av电影| 99国产精品久久久| 亚洲国产精品一区二区第四页av | 欧美日韩在线精品一区二区三区| 欧美α欧美αv大片| 欧美xart系列高清| 欧美大片免费久久精品三p | 亚洲精品欧美激情| 亚洲精品乱码久久久久久| 亚洲国产经典视频| 亚洲高清视频一区二区| 久久精品亚洲一区二区三区浴池| 欧美专区在线观看一区| 久久激情中文| 亚洲国产精品久久久久秋霞蜜臀 | 亚洲精品欧美专区| 亚洲精品国产拍免费91在线| 亚洲精选在线观看| 一本色道久久综合狠狠躁篇怎么玩| 日韩亚洲在线| 一区二区三区 在线观看视频| 亚洲最新色图| 亚洲欧美乱综合| 欧美一区二区三区免费视频| 久久精品卡一| 老鸭窝91久久精品色噜噜导演| 久久综合亚州| 欧美精品免费在线| 欧美午夜视频网站| 国产欧美高清| 伊人精品在线| 日韩视频免费观看高清在线视频 | 一本高清dvd不卡在线观看| 一区二区三区日韩欧美| 亚洲永久在线观看| 欧美在线999| 91久久嫩草影院一区二区| 日韩一级在线观看| 亚洲欧美伊人| 久久这里只有| 欧美日韩国产精品一区二区亚洲| 国产精品xxx在线观看www| 国产亚洲欧美aaaa| 亚洲全黄一级网站| 亚洲一区二区网站| 久久激五月天综合精品| 亚洲另类春色国产| 午夜久久久久久| 麻豆久久久9性大片| 欧美日韩亚洲国产一区| 国产日韩一区欧美| 亚洲精品久久久久久久久久久久久| 亚洲一区二区三区久久| 久久精品一区中文字幕| 亚洲午夜日本在线观看| 久久九九热re6这里有精品| 欧美精品一区二区三区蜜臀| 国产精品久久久久久超碰 | 亚洲视频二区| 亚洲第一精品夜夜躁人人爽| 一本色道久久综合一区| 久久精品国产欧美激情| 欧美日韩国产色视频| 国产视频精品va久久久久久| 亚洲欧洲日本国产| 小嫩嫩精品导航| 亚洲视频 欧洲视频| 麻豆精品91| 国产精品午夜电影| 亚洲精华国产欧美| 午夜精品久久久久久99热软件| 亚洲精品在线一区二区| 久久九九精品| 国产精品黄视频| 亚洲国产精品毛片| 欧美一级视频免费在线观看| 亚洲小说欧美另类婷婷| 免费日韩av片| 国产中文一区二区| 亚洲一区精彩视频| 一本色道综合亚洲| 欧美成人精品在线| 国产一区亚洲| 亚洲尤物影院| 亚洲制服丝袜在线| 欧美人在线观看| 在线观看91久久久久久| 午夜亚洲视频| 午夜精品理论片| 欧美三级日韩三级国产三级| 亚洲高清精品中出| 亚洲第一精品在线| 久久久久se| 国产农村妇女精品一区二区| 在线亚洲欧美| 亚洲线精品一区二区三区八戒| 欧美极品在线观看| 伊人久久男人天堂| 亚洲大胆美女视频| 久久久999精品免费| 国产伦理一区| 亚洲欧美日韩国产中文| 亚洲尤物精选| 欧美日韩一区二区在线播放| 亚洲第一精品夜夜躁人人爽| 亚洲成色777777在线观看影院| 欧美一区视频在线| 国产精品综合网站| 亚洲综合色婷婷| 午夜精品一区二区三区在线视 | 亚洲一区二区免费视频| 亚洲永久在线观看| 国产精品成人一区二区网站软件 | 亚洲一区二区影院| 午夜国产精品影院在线观看| 欧美日韩黄视频| 99re热精品| 亚洲一区二区三区精品在线观看| 欧美三级电影精品| 一本一本大道香蕉久在线精品| 亚洲午夜国产成人av电影男同| 欧美日韩精品二区| 一区二区三区欧美| 亚洲欧美区自拍先锋| 国产精品婷婷午夜在线观看| 亚洲欧美日韩另类精品一区二区三区| 午夜久久影院| 国产视频亚洲精品| 久久精品视频免费播放| 久久亚洲视频| 亚洲第一在线综合网站| 亚洲欧洲一区二区天堂久久| 欧美另类综合| 一区二区三区不卡视频在线观看 | 亚洲日本aⅴ片在线观看香蕉| 欧美国产日韩一区二区三区| 亚洲国产视频一区二区| 一本到高清视频免费精品| 欧美亚州韩日在线看免费版国语版| 亚洲一区在线观看视频| 久久久久国产精品一区| 在线观看久久av| 一区二区三区四区精品| 国产精品手机视频| 久久精品一区二区三区四区| 欧美精品一区在线| 一个人看的www久久| 翔田千里一区二区| 国产自产女人91一区在线观看| 亚洲国内精品| 欧美四级伦理在线| 欧美一区二区三区四区在线| 蜜桃久久精品乱码一区二区| 亚洲三级网站| 欧美一区二区福利在线| 激情久久影院| 亚洲午夜精品福利| 国产性色一区二区| 一本色道久久综合狠狠躁篇的优点| 国产精品日韩在线播放| 亚洲国产精品99久久久久久久久| 欧美日韩精品不卡| 欧美一区二区日韩一区二区| 欧美不卡视频一区发布| 亚洲无线视频| 另类春色校园亚洲| 亚洲性视频网站| 免费看亚洲片| 亚洲自拍偷拍一区| 欧美高清影院| 亚洲午夜小视频| 毛片一区二区| 亚洲视频欧洲视频| 蜜臀av一级做a爰片久久| 一本一本久久a久久精品综合麻豆| 久久久久久久波多野高潮日日| 亚洲免费成人av电影| 久久精品一区中文字幕| 亚洲精选视频在线| 久久久久久久网| 一区二区三区色| 牛牛国产精品| 亚洲欧美国产高清| 欧美久久在线| 欧美在线观看视频在线 | 极品中文字幕一区| 亚洲欧美视频一区二区三区| 亚洲国产日韩在线| 久久久精品一区| 在线亚洲欧美专区二区| 欧美成人高清视频| 亚洲影院污污.| 欧美日韩精品久久| 亚洲第一天堂av| 国产欧美精品在线观看| 亚洲视频播放| 91久久精品日日躁夜夜躁国产| 久久九九国产精品|