System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于篇章级文本分析的新闻事件自动抽取和合并系统技术方案_技高网

一种基于篇章级文本分析的新闻事件自动抽取和合并系统技术方案

技术编号:44590735 阅读:1 留言:0更新日期:2025-03-14 12:49
本发明专利技术公开了一种基于篇章级文本分析的新闻事件自动抽取和合并系统,通过预处理模块清理文本噪声并划分段落,结合图片标题与段落文本的多模态联合分析,利用语义相似度计算与命名实体识别技术筛选强事件候选;采用基于Transformer架构的多任务学习框架,协同抽取时间、地点、人物、事件、起因和经过等要素,提升事件要素抽取的全面性与精确性;通过Bi‑Encoder模型计算事件相似度并结合时间戳进行事件合并与排序,生成逻辑清晰的事件链。该系统突破了现有句子级或段落级分析的局限,通过篇章级全局语境、数据多模态结合及智能事件链构建,显著提升新闻事件识别的全面性、一致性和连贯性,在新闻监测、舆情分析等领域具有广泛应用价值。

【技术实现步骤摘要】

本专利技术涉及新闻文本的事件抽取与分析,尤其是涉及一种基于篇章级文本分析的新闻事件自动抽取和合并系统


技术介绍

1、随着互联网和社交媒体的快速发展,新闻信息的传播速度和数量呈现爆炸式增长,如何从海量新闻文本中快速、准确地抽取关键事件信息成为信息处理领域的一个重要研究方向。通常,事件抽取技术主要用于从文本中提取时间、地点、人物、事件起因和经过等要素,广泛应用于新闻监测、舆情分析和信息检索等场景。这一技术通过将非结构化文本转化为结构化事件信息,可以帮助用户快速掌握复杂事件的全貌。

2、现有技术中,事件抽取的工作原理主要基于自然语言处理技术和深度学习模型的应用。典型的事件抽取方法通常以句子或段落为分析粒度,从局部语境中提取事件要素。然而,在这一技术框架下,行业中存在以下问题:

3、1、粒度局限导致信息缺失,即传统方法多局限于句子级或段落级的分析,仅能捕捉局部范围内的事件要素,无法从全篇文章的语境中全面提取事件信息。例如,一篇新闻报道中可能跨段落描述事件的不同部分,如时间在第一段提到,地点在第三段提到,而传统方法很难将这些分散的信息整合,导致事件要素提取不完整。

4、2、多模态信息处理能力不足,即在新闻文本中,图片标题常常携带重要的补充信息,如图片说明可能包含时间、地点或人物等关键信息,但传统技术通常忽略这类非正文内容,或将其孤立处理,无法与正文内容形成有效的协同分析,导致信息挖掘不全面。

5、3、相似事件的识别与合并困难,即新闻报道中,往往多篇文章会围绕同一事件或相关事件展开,例如不同媒体从不同角度描述某一新闻事件。传统事件合并技术通常依赖简单的关键词匹配或相似度计算,难以处理语义上高度相关但措辞不同的文本。此外,对于跨文章的相似事件,现有技术常常缺乏全局视角的时间排序机制,导致生成的事件链条不够连贯或逻辑性不足。

6、为了解决以上问题,行业内尝试采用以下改进方式,但这些方式仍存在新的挑战,例如,引入深度学习模型提升抽取精度:例如,利用bert模型对文本进行特征提取,改善局部事件要素抽取的准确性。但这种方法仍局限于单一粒度,无法有效整合篇章级语境信息。针对图片标题的独立分析:部分技术方案尝试对图片标题进行独立实体识别,但由于缺乏与正文内容的联动分析,依然难以充分利用多模态数据的协同作用。事件聚合算法的优化:某些研究引入聚类算法提升相似事件合并的准确性,但这些方法在面对多样化新闻表达时鲁棒性不足,且对事件链构建中的时间逻辑处理较弱。

7、因此,如何全面提取篇章级事件要素、有效整合多模态信息并生成逻辑连贯的事件链,成了本专利技术所要解决的技术问题。


技术实现思路

1、本专利技术解决的技术问题是针对上述现有技术中存在的缺陷,提供一种基于篇章级文本分析的新闻事件自动抽取和合并系统,以解决上述
技术介绍
中提出的事件识别全面性不足、多模态信息整合能力不足以及相似事件合并和逻辑性不佳的问题。

2、为解决上述技术问题,本专利技术采取的技术方案如下:

3、一种基于篇章级文本分析的新闻事件自动抽取和合并系统,所述系统包括:

4、预处理模块,用于清理新闻文本中的无关信息,去除特殊字符和噪声,并基于文本结构和语法特征,将文本划分为段落粒度;

5、图片标题与段落文本联合分析模块,包括:

6、图片标题文本提取单元,用于从新闻文章中解析并提取图片标题文本;

7、事件候选筛选单元,用于将所述图片标题文本与段落文本输入预训练的bert模型,生成对应的语义向量,并计算其余弦相似度;

8、若所述相似度高于设定阈值,则将对应的段落文本标记为强事件候选;否则,通过ner模型识别图片标题文本中的包括但不限于时间、人物、地点的重要实体,并根据实体识别结果进一步筛选候选事件;

9、段落文本分析模块,包括:

10、关键词提取单元,通过tf-idf模型对段落文本进行向量化,并提取核心关键词;

11、实体识别单元,利用ner模型对段落文本中的包括但不限于时间、人物、地点的重要实体进行识别;

12、事件候选确定单元,用于将提取的关键词与识别的实体进行比对,若关键词与实体存在重合关系,则将段落文本标记为强事件候选;

13、事件要素抽取模块,包括:

14、基于transformer架构设计的多任务学习框架,用于从强事件候选文本中同时抽取包括但不限于时间、人物、地点、事件、起因或经过的事件要素,其中:

15、所述多任务学习框架的底层特征提取基于预训练的bert模型,通过转移学习进行微调;

16、所述框架为每个事件要素任务添加特定的序列标注层,并结合条件随机场层与交叉熵损失函数,提高事件要素抽取的性能。

17、事件合并与排序模块,包括:

18、相似事件识别单元,基于bi-encoder模型对事件要素和文本生成嵌入向量,并通过语义相似度计算,识别相似事件对;

19、事件合并单元,用于对相似事件的要素进行合并;

20、事件链生成单元,根据事件的时间戳信息对合并后的事件进行排序,生成时间轴上的事件链。

21、作为本专利技术进一步的方案,所述图片标题与段落文本联合分析模块的事件候选筛选单元通过以下步骤实现:

22、步骤1,使用预训练的bert模型,将图片标题文本和段落文本嵌入为语义向量;

23、步骤2,计算嵌入向量之间的余弦相似度,若相似度高于设定阈值,则将段落文本标记为强事件候选;

24、步骤3,对相似度低于设定阈值的图片标题文本,使用ner模型进行实体识别,并基于所提取的时间、人物、地点和/或机构名称的关键实体对事件候选进行进一步筛选;

25、所述事件合并与排序模块的事件链生成单元通过以下步骤实现:

26、s1,使用预训练的bi-encoder模型对事件文本和要素进行嵌入,生成对应的语义向量;

27、s2,基于语义向量计算事件之间的相似度,若相似度高于设定阈值,则合并相似事件;

28、s3,根据事件的时间戳信息对合并后的事件按时间顺序进行排序,生成逻辑完整的事件链。

29、作为本专利技术进一步的方案,段落文本分析模块的实体识别单元通过ner模型对段落文本中的时间、人物、地点、机构名称进行识别,并对实体类型进行微调。

30、作为本专利技术进一步的方案,事件要素抽取模块采用条件随机场层与交叉熵损失函数的组合方式对事件要素进行序列标注。

31、作为本专利技术进一步的方案,事件合并与排序模块在事件合并时,通过计算事件要素的一致性,优先合并具有相同时间、人物或地点的事件。

32、作为本专利技术进一步的方案,图片标题文本提取单元利用html解析工具对新闻文章中的图片标题进行高效解析。

33、作为本专利技术进一步的方案,事件候选筛选单元通过动态调整余弦相似度阈值的机制,适应不同新闻来源的本文档来自技高网...

【技术保护点】

1.一种基于篇章级文本分析的新闻事件自动抽取和合并系统,其特征在于,所述系统包括:

2.根据权利要求1所述的一种基于篇章级文本分析的新闻事件自动抽取和合并系统,其特征在于,所述图片标题与段落文本联合分析模块的事件候选筛选单元通过以下步骤实现:

3.根据权利要求1所述的一种基于篇章级文本分析的新闻事件自动抽取和合并系统,其特征在于,段落文本分析模块的实体识别单元通过NER模型对段落文本中的时间、人物、地点、机构名称进行识别,并对实体类型进行微调。

4.根据权利要求1所述的一种基于篇章级文本分析的新闻事件自动抽取和合并系统,其特征在于,事件要素抽取模块采用条件随机场层与交叉熵损失函数的组合方式对事件要素进行序列标注。

5.根据权利要求1所述的一种基于篇章级文本分析的新闻事件自动抽取和合并系统,其特征在于,事件合并与排序模块在事件合并时,通过计算事件要素的一致性,优先合并具有相同时间、人物或地点的事件。

6.根据权利要求1所述的一种基于篇章级文本分析的新闻事件自动抽取和合并系统,其特征在于,图片标题文本提取单元利用HTML解析工具对新闻文章中的图片标题进行高效解析。

7.根据权利要求1所述的一种基于篇章级文本分析的新闻事件自动抽取和合并系统,其特征在于,事件候选筛选单元通过动态调整余弦相似度阈值的机制,适应不同新闻来源的文本特性。

8.根据权利要求1所述的一种基于篇章级文本分析的新闻事件自动抽取和合并系统,其特征在于,事件要素抽取模块中的多任务学习框架利用共享底层表示的方式。

9.根据权利要求1所述的一种基于篇章级文本分析的新闻事件自动抽取和合并系统,其特征在于,图片标题与段落文本联合分析模块中事件候选筛选单元的阈值调整机制包括:

10.根据权利要求1所述的一种基于篇章级文本分析的新闻事件自动抽取和合并系统,其特征在于,图片标题与段落文本联合分析模块的图片标题文本提取单元使用以下方法进行HTML解析:

...

【技术特征摘要】

1.一种基于篇章级文本分析的新闻事件自动抽取和合并系统,其特征在于,所述系统包括:

2.根据权利要求1所述的一种基于篇章级文本分析的新闻事件自动抽取和合并系统,其特征在于,所述图片标题与段落文本联合分析模块的事件候选筛选单元通过以下步骤实现:

3.根据权利要求1所述的一种基于篇章级文本分析的新闻事件自动抽取和合并系统,其特征在于,段落文本分析模块的实体识别单元通过ner模型对段落文本中的时间、人物、地点、机构名称进行识别,并对实体类型进行微调。

4.根据权利要求1所述的一种基于篇章级文本分析的新闻事件自动抽取和合并系统,其特征在于,事件要素抽取模块采用条件随机场层与交叉熵损失函数的组合方式对事件要素进行序列标注。

5.根据权利要求1所述的一种基于篇章级文本分析的新闻事件自动抽取和合并系统,其特征在于,事件合并与排序模块在事件合并时,通过计算事件要素的一致性,优先合并具有相同时间、人物或地点的事件。

<...

【专利技术属性】
技术研发人员:叶恺翔吕晓宝宋怀明王元兵王海荣
申请(专利权)人:中科曙光南京研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1