《電子技術應用》
您所在的位置:首頁 > 人工智能 > 設計應用 > 面向新聞的長文本事件抽取方法
面向新聞的長文本事件抽取方法
網絡安全與數據治理
武劍濤,李俊達,李佰文,淮曉永
華北計算機系統工程研究所
摘要: 事件抽取技術旨在從非結構化文本中識別并結構化描述事件信息,是構建知識圖譜與實現輿情分析的核心基礎。針對新聞長文本中多事件共存、復雜敘事結構的特點以及現有模型輸入長度受限等挑戰,提出一種層級化新聞長文本事件抽取框架。該框架通過語義邊界分割算法優化段落劃分,降低事件要素的跨段落割裂;結合機器閱讀理解技術實現局部事件要素提取;并設計事件合并算法完成跨分塊事件的語義融合。實際應用表明,該框架能夠適應新聞文本的結構特性,在多事件場景中可穩定提取關鍵信息,為輿情監控、知識圖譜構建等任務提供可落地的技術解決方案。
中圖分類號:TP391.13文獻標識碼:ADOI:10.19358/j.issn.2097-1788.2025.05.004
引用格式:武劍濤,李俊達,李佰文,等. 面向新聞的長文本事件抽取方法[J].網絡安全與數據治理,2025,44(5):21-28.
A method for event extraction from lengthy news texts
Wu Jiantao,Li Junda,Li Baiwen,Huai Xiaoyong
National Computer System Engineering Research Institute of China
Abstract: Event extraction technology, which aims to identify and structurally represent event information from unstructured text, serves as the foundational infrastructure for constructing knowledge graphs and enabling public opinion analysis. To address the challenges of multi-event coexistence, complex narrative structures in lengthy news texts, and input length constraints of existing models, this paper proposes a hierarchical event extraction framework specifically designed for news narratives. The framework features three key innovations: (1) a semantic boundary segmentation algorithm that optimizes paragraph segmentation to minimize cross-paragraph fragmentation of event elements; (2) integration of machine reading comprehension (MRC) technology for localized event element extraction; (3) a cross-chunk event fusion algorithm is designed to achieve semantic integration of distributed event components. Experimental evaluations demonstrate that the proposed framework effectively adapts to the structural characteristics of news texts, can consistently extract critical information in multi-event scenarios, and deliver practically viable technical solutions for public opinion monitoring and knowledge graph construction.
Key words : event extraction; machine reading comprehension; semantic chunking

引言

事件抽取是自然語言處理中的一項關鍵技術,其核心目標是從非結構化文本中識別并提取出特定事件的信息,包括事件類型、參與者、時間、地點等關鍵要素,并以結構化形式呈現出來。通過新聞事件抽取技術,能夠從海量新聞文本中實時提取出關鍵事件信息,為知識圖譜的構建提供高質量的數據支持。同時,基于對這些信息的實時分析,可以快速識別出正在發酵的熱點事件,評估其輿論熱度及發展趨勢,從而為輿情監控和決策支持提供精準、及時的參考依據。

文本事件抽取的研究經歷了從規則方法到機器學習,再到深度學習的演進。早期研究主要依賴人工規則和傳統機器學習方法,例如,Liao等[1]基于條件隨機場事件檢測方法,解決了從文本中識別事件觸發詞的問題,為事件抽取任務奠定了基礎。Ji等[2]提出了基于支持向量機的論元角色標注方法,通過分類模型識別事件參與者及其角色,提升了事件結構的完整性。隨著深度學習的興起,Chen等[3]提出了基于動態多池化卷積神經網絡的事件抽取方法,解決了傳統方法難以捕捉文本中長距離依賴關系的問題。近年來,預訓練語言模型(如BERT[4]、GPT[5])的引入進一步推動了該領域的發展,Li等[6]提出的多階圖卷積網絡方法通過建模事件內部關系,為解決多事件共存場景下的信息抽取難題提供了新思路,但其端到端處理模式仍受限于新聞文本的跨段落特性。與此同時,機器閱讀理解(Machine Reading Comprehension, MRC)技術也被引入事件抽取任務,Du等[7]提出的基于MRC框架的方法將事件抽取轉化為問答問題,通過預訓練語言模型生成答案,有效提升了泛化能力和長文本處理效果。

然而,新聞文本的特殊性對現有方法提出了獨特挑戰。王人玉等[8]的研究表明,新聞報道中多個獨立事件常以倒金字塔結構分布在相鄰段落,導致事件要素的跨段落分散;Li等[9]進一步指出,新聞段落間的敘事非連續性事件要素定位誤差和敘事跳躍性使得端到端模型難以有效捕捉局部語義焦點。這些結構性特征與BERT等預訓練模型的長度限制共同作用,導致傳統篇章級方法[10]在處理多事件新聞時丟失關鍵事件要素。以DuEEFin[11]數據集中的《安琪酵母股份有限公司關于股東通過大宗交易減持股份的公告》(下文簡稱為公告)為例,該文本通過“重要提示”“減持情況”和“其他事項”三個獨立章節分別承載減持主體“湖北日升”的持股信息(5657 41%)、減持操作(5 417 651股)及合規聲明,形成典型的多段落協同敘事結構。這種跨段落分布特征與文本中大量非事件信息交織,易使篇章級抽取模型產生兩種典型錯誤:一是全局語義理解導致的冗余信息干擾,二是事件稀疏性引發的要素漏檢。

針對上述問題,基于文本結構的分段處理方法展現出更強的適應性:通過語義分塊將長文本解構為局部信息單元,既可規避跨段落要素的干擾,又能通過分段抽取-合并策略解決多事件并行處理難題。該方法與新聞文本的多事件分布特性和復雜敘事結構形成映射關系,在保持事件要素完整性的同時,有效提升了實際業務場景中的信息抽取準確率。

基于以上研究,本文提出一種層級化事件抽取框架(Hierarchical Event Extraction Framework, HEEF),本框架核心包含:(1) 采用語義分割的長文本分塊技術,通過上下文感知的段落劃分避免事件要素割裂;(2)構建基于機器閱讀理解(MRC)的聯合抽取模型,通過定制問答對實現事件類型與論元角色的精準解析;(3)設計跨分塊事件融合策略,通過時空語義約束實現事件聚合。該框架通過“分塊-抽取-融合”的遞進式處理,有效應對新聞文本中多事件共存、跨段落分布與語義跳躍性等挑戰,為長文本事件抽取提供系統性解決方案。


本文詳細內容請下載:

http://m.jysgc.com/resource/share/2000006543


作者信息:

武劍濤,李俊達,李佰文,淮曉永

(華北計算機系統工程研究所,北京100083)


Magazine.Subscription.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 国产精品毛片a∨一区二区三区| 91亚洲欧美综合高清在线| 欧美成人亚洲欧美成人| 伦理eeuss| 精品伊人久久大线蕉地址| 国产99在线|亚洲| 韩国无遮挡羞羞漫画| 国产欧美久久久精品影院| 两领导在车上吃我的奶| 日本高清无卡码一区二区久久| 亚洲色四在线视频观看| 精品无码国产AV一区二区三区| 国产精品东北一极毛片| a级韩国乱理论片在线观看| 影音先锋男人看片资源| 亚洲а∨天堂久久精品| 正能量www正能量免费网站| 免费久久人人爽人人爽av| 精品日韩一区二区| 四虎影视在线影院在线观看| 里番牝教师~淫辱yy608| 国产性感美女在线观看| 99久久国产综合精品1尤物| 妺妺窝人体色WWW聚色窝仙踪| 久久国产成人精品国产成人亚洲| 波多野结衣mxgs-983| 伊人色综合久久天天| 精品久久久久久中文字幕无码软件 | 国产成人最新毛片基地| 中文字幕一区二区三匹| 国产精品无码久久久久久| 一级毛片视频免费观看| 最新国产精品好看的国产精品| 任你躁欧美一级在线精品| 精品永久久福利一区二区| 四虎www成人影院| 欧美影院在线观看| 国产特黄1级毛片| 久久福利资源网站免费看 | 久草热久草视频| 最近免费中文字幕大全免费版视频 |