System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理领域中的文本摘要任务,具体地涉及一种基于事件演化阶段的时间线摘要方法。
技术介绍
1、在当今快速变化的新闻环境中,人们面临着海量的新闻文章,很难有效地搜索、理解和跟踪整个新闻故事。传统的阅读方式可能会导致信息过载和困惑。为了解决这个问题,时间线摘要的研究领域应运而生。时间线摘要旨在减轻新闻文章集固有的冗余和复杂性,通过按时间顺序组织关键事件和主要消息,帮助用户更好地了解新闻景观。通过时间线摘要,用户可以快速浏览事件的演化阶段,抓住关键的转折点和重要细节,从而更好地理解新闻事件的发展过程。这项研究为提供高效的新闻浏览和理解工具提供了理论基础,有助于提高用户对新闻的信息获取效率和可理解性。
2、因此,有必要设计一种基于事件演化阶段的时间线摘要方法。
技术实现思路
1、为了克服现有时间线摘要技术忽略了对事件发展演化各个阶段的探索,本专利技术提出了一种基于事件演化阶段的时间线摘要方法,包括:
2、一种一种基于事件演化阶段的时间线摘要方法,所述基于事件演化阶段的时间线摘要方法包括如下步骤:
3、步骤1:从事件文档集合中提取出日期、句子、单词等节点,并进行预处理为所需的格式,以及通过各种编码技术获取初始的特征表示;
4、步骤2:根据单词分别在日期和句子中出现的频率计算节点间的边关系构建异构图,并提取异构图中不同类型的元路径;
5、步骤3:利用异构图注意力网络对异构图的结构和语义信息进行建模,获得各节点语义完善
6、步骤4:依据日期和句子的语义完善特征表示计算相似度矩阵,使用谱共聚类建模事件演化阶段,获得多个日期和句子共簇用于摘要;
7、步骤5:训练一个突出日期选择模型,在每个日期和句子共簇内利用摘要算法生成摘要;
8、步骤6:根据时间顺序,输出基于事件演化阶段时间线摘要。
9、根据一个优选的实施方式,步骤1还包括:
10、预处理事件文档集合,去除标注错误的日期,将所有句子进行小写化、去除标点符号,去除停顿词,提取出所有的日期、句子、单词等节点,并计算单词在文档中的tf-idf值,过滤tf-idf值较低的噪音单词;
11、利用sentence-bert模型获取句子初始特征表示,再根据预训练的glove单词向量模型来获取单词初始特征表示,对日期所属的所有句子特征表示使用平均池化得到日期的初始特征表示。根据一个优选的实施方式,步骤2还包括:
12、单词用于连接日期-日期、句子-句子和日期-句子等图中边的关系,首先计算单词与日期间的边关系权重,计算方法为单词在日期中的出现的频率和单词出现在所有日期中的逆频率相乘,单词与句子间的边关系权重权重则是通过单词出现在句子中的频率和单词在所有句子中的逆频率相乘;
13、根据提取的日期、句子、单词节点、以及获取到的单词与日期、句子间的边关系权重来构建异构图,并提取异构图中的各种元路径,并对数据进行标注划分。
14、根据一个优选的实施方式,步骤3还包括:
15、将元路径和初始节点特征表示作为输入到异构图注意力网络中,首先通过异构图注意力网络中的节点注意力层的学习节点与其基于元路径的邻居之间的注意力权重分布,并根据注意力权重分布进行节点级别特征表示聚合;
16、异构图注意力网络中语义注意力层关注不同元路径的注意力权重分布,并根据注意力权重分布进行元路径级别特征表示聚合。
17、根据一个优选的实施方式,步骤4还包括:
18、对异构图输出的日期和句子节点特征表示使用矩阵乘法和cosine相似度计算日期和句子的相似度矩阵,然后使用l2_normalization进行向量归一化;
19、基于相似度矩阵,计算拉普拉斯矩阵,对拉普拉斯矩阵进行特征值分解,得到特征值和对应的特征向量,将这些特征值按照大小排序,形成特征值序列,可视化特征值序列得到谱图特征值分布,生成一组随机数据,保持与日期和句子特征表示有相同的数据结构和维度,并计算每个随机数据集的谱图特征值分布,计算gap统计量,该统计量为相似度矩阵的谱图特征值分布与随机数据集谱图特征值分布之间的差异,计算公式为gap(k)=log(wk*)-log(wk)+e*[log(wk*)-log(wk)],其中,wk*是参考数据集的紧凑度的平均值,wk是原始数据集的紧凑度,e*是参考数据集的标准差的平均值,选择gap统计量最大的截断点对应的聚类数作为最佳的聚类数k;
20、使用谱共聚类算法对相似度矩阵进行切割,将其分成多个子图,对每个子图应用谱聚类算法,得到特征向量,使用k-means聚类算法对特征向量进行聚类。将每个子图的聚类结果整合在一起,形成最终的k个日期和句子共簇聚类。
21、根据一个优选的实施方式,步骤5还包括:
22、利用日期特征表示去训练一个线性逻辑回归模型,用于预测突出的日期节点;
23、寻找每个突出日期节点所属的日期-句子共簇,使用突出日期节点的特征表示作为质心,然后提取日期-句子共簇中的句子最为日期摘要,当日期摘要长度为空时首先计算共簇中每个句子与质心的cosine相似值,选择最大相似值的句子作为第一个日期摘要,后面选择的句子需要保证同时与质心和所有的日期摘要都有最大cosine相似值才能作为日期摘要,直到达到合适的摘要长度。
24、根据一个优选的实施方式,步骤6还包括:
25、按照时间先后的先后顺序对日期摘要进行排序,然后输出时间线摘要为期望格式或展现方式,如txt、word、json等文档,以及可视化方式。
26、本专利技术还提供了一种电子设备,包括:
27、至少一个处理器以及至少一个与处理器通信连接的存储器,处理器至少能够执行:
28、对事件文档进行预处理操作,得到所需格式的数据样本;
29、计算异构图中各节点之间的各种边关系权重,构建异构图,并提取元路径;
30、使用异构图注意力网络对异构图中的节点和元路径关系进行建模,得到节点的分层方式聚集特征表示;
31、计算gap统计量,获得聚类数k,并使用谱共聚类对日期和句子进行共聚类,获得k个日期-句子共簇;训练一个线性逻辑回归模型,预测事件中的突出日期节点,并使用摘要算法获取日期摘要;按照时间顺序输出生成的时间线摘要。
32、本专利技术的有益效果:
33、通过对日期和句子进行层次语义聚合获取语义丰富的特征表示,可以帮助摘要算法生成准确的时间线摘要,总结每个事件主要消息;
34、使用谱共聚类建模日期与日期、句子与句子和日期和句子间的阶段分布关系,挖掘出事件发展的演化阶段,并在每个演化阶段摘要突出日期和重要信息,使得用户很容易获得关键见解和理解新闻事件的演变。
本文档来自技高网...【技术保护点】
1.基于事件演化阶段的时间线摘要方法,其特征在于,包括:
2.如权利要求1所述的基于事件演化阶段的时间线摘要方法,其特征在于,步骤1包括:
3.如权利要求1所述的基于事件演化阶段的时间线摘要方法,其特征在于,步骤2包括:
4.如权利要求1所述的基于事件演化阶段的时间线摘要方法,其特征在于,步骤3包括:
5.如权利要求1所述的基于事件演化阶段的时间线摘要方法,其特征在于,步骤4包括:
6.如权利要求1所述的基于事件演化阶段的时间线摘要方法,其特征在于,步骤5包括:
7.如权利要求1所述的基于事件演化阶段的时间线摘要方法,其特征在于,步骤6包括:
8.本专利技术涉及电子设备,其特征在于,包括:
【技术特征摘要】
1.基于事件演化阶段的时间线摘要方法,其特征在于,包括:
2.如权利要求1所述的基于事件演化阶段的时间线摘要方法,其特征在于,步骤1包括:
3.如权利要求1所述的基于事件演化阶段的时间线摘要方法,其特征在于,步骤2包括:
4.如权利要求1所述的基于事件演化阶段的时间线摘要方法,其特征在于,步骤3包括:...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。