System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种基于关键词异构图和语义匹配的金融文本摘要方法,属于自然语言处理领域。
技术介绍
1、近年来,计算机根据给定的文章生成摘要已成为人工智能领域中一项重要任务。文本摘要是指通过分析文档内容,从中提取关键信息,并以简明扼要的方式呈现给用户。文本摘要作为信息检索和文本挖掘领域中的核心问题之一,已经被广泛地应用于各个领域,包括新闻摘要、文献综述、商业报告等。文本摘要分为抽取式和生成式两种方法,抽取式方法因其直接从原文中提取重要句子、重要词语构成摘要,保留了原文中的准确术语,于是具有较高的准确性。抽取式摘要方法主要分为:基于统计的方法,如词频-逆文档频率(tf-idf);基于图结构的方法,如textrank算法和lexrank算法;基于统计机器学习的方法,如支持向量机(svm)、隐马尔可夫模型(hmm)、条件随机场(crf)等。目前,神经网络因其具有处理长文本和复杂语义关系的特点,被大量地应用在抽取式摘要任务中。
2、基于统计的抽取式摘要方法对文本中句子的统计特征进行分析和计算,通过提取最重要的句子来构成摘要。基于图结构的抽取式摘要方法主要依靠词语之间的共现关系来计算权重和构建图结构。这类方法主要依赖于对句子特征和权重的计算,对于句子之间的语义关联理解较为薄弱,因此无法准确把握文本的上下文信息,导致构成的摘要不够连贯和完整。基于机器学习的抽取式摘要方法通过对示例输入及其预期输出进行训练而不是人工创建的规则来学习和预测,其能够理解语义信息和文本的上下文关系。基于深度学习的抽取式摘要方法通过神经网络从数据中学习复杂的
技术实现思路
1、本专利技术目的是:为了解决现有的金融文本摘要模型忽略关键词与文档之间的依赖关系和摘要与文档原文之间的语义匹配度的问题,同时使得整个模型能够更好地捕获句子级的长距离依赖关系。
2、为实现上述目的,本专利技术设计出一种基于关键词异构图和语义匹配的金融文本摘要方法。该方法包括以下步骤:
3、s100、使用爬虫技术获取金融文本数据,构建用于训练抽取式单文档摘要模型的数据集;对用于训练抽取式单文档摘要模型的数据集进行预处理和标注;
4、s101、对数据集进行清洗和去停用词处理,并按照8:1:1的比例随机划分为训练集、测试集和验证集;
5、s102、对数据进行标注,每个数据样本包含一篇文档、一段参考摘要和句子级标签;为构建用于训练抽取式单文档摘要模型的数据集,采用基于rouge评分的束搜索规则对数据进行标注,获得句子级标签label;label表示为一个包含n个句子的序列{, ,..., },其中表示第i个句子,=1表示第i个句子属于摘要,=0表示第i个句子不属于摘要;
6、s200、为充分关注关键词与文档之间的依赖关系,提取文档中的多级关键词,包含句子级关键词和文档级关键词;采用tf-idf方法提取句子级关键词,采用基于bert的序列标注器提取文档级关键词;
7、s201、在每篇文档中,利用tf-idf方法计算句子中词语的tf-idf值,获得句子级关键词;
8、s202、为提取文档级关键词,构建基于bert的序列标注器;为保留文档中的篇章结构并解决bert模型输入长度限制问题,对文档进行段落切分,并将其以打包的方式输入到bert模型;
9、s203、提取文档级关键词;根据句子级标签从训练数据集中选取出重要句子,识别重要句子和参考摘要中的相同词语,删除其中重复的词语和停用词获得文档级关键词;将文档级关键词提取任务视作序列标注任务,利用文档级关键词在文档中的位置信息和文档原文,训练基于bert的序列标注器;在测试阶段,将文档原文输入到训练好的序列标注器,得到所有词语是否是文档级关键词的预测概率分布,提取测试数据集和验证数据集中的文档级关键词,文档级关键词数量设置为10;
10、s204、为保证关键词异构图的可靠性和稳定性,利用交叉验证法训练基于bert的序列标注器,提取训练数据集中的文档级关键词;
11、s300、构建关键词异构图;给定一个异构图g={v,e},v代表节点集,包含三种粒度语义节点,分别是词语节点、句子节点和文档节点;e代表节点之间的边集,包含词语与句子之间的边和词语与文档之间的边;初始化关键词异构图,需要初始化节点特征向量和明确节点之间的关系重要性;
12、s301、给定一个异构图g={v,e},其中v代表节点集,e代表节点之间的边集;v=∪∪,其中表示文档中不重复的词语节点,表示文档中的句子节点,表示文档中唯一的文档节点,∪表示并集操作;e=∪,其中表示词语与句子之间的边,表示词语与文档之间的边;
13、s302、初始化关键词异构图,需要初始化节点特征向量和明确节点之间的关系重要性;采用词嵌入方式获得词语节点特征向量;分别利用卷积神经网络cnn和双向长短期记忆网络bilstm获得句子的局部n-gram特征和上下文特征,串联和作为句子节点特征向量;利用bert模型获得文档节点特征向量;为明确词语与句子之间关系的重要性,在词语与句子之间的边权重注入句子级关键词的tf-idf值;为明确词语与文档之间关系的重要性,在词语与文档之间的边权重注入文档级关键词的预测概率值;为便于计算,将关键词异构图中所有的边权重规约到0至10的范围内;
14、s400、为实现局部信息聚合和全局信息传递,更新关键词异构图中的节点特征向量;对于一个给定的节点特征向量,图注意力机制计算与邻居节点特征向量之间的注意力权重;多头注意力机制利用和生成聚合的节点特征向量;为了让模型能够学习到更丰富的特征表示,将依次送入残差连接层和位置前馈层获得新的节点特征向量;通过上述的节点特征向量更新过程获得关键词异构图中词语、句子和文档节点的最终特征向量、和;
15、s500、为提高生成的摘要与文档原文之间的语义一致性,对句子二分类交叉熵损失函数loss_bce和语义相似度损失函数loss_cs进行求和,生成组合损失函数loss;模型通过降低组合损失函数来不断优化,生成摘要;
16、s501、利用句子分类器构造句子二分类交叉熵损失函数;句子分类器将句子节点的最终特征向量送入全连接层进行归一化,在句子是否属于摘要的决策空间上产生概率分布;利用真实标签和决策空间上的概率分布组成句子二分类交叉熵损失函数;
17、s502、利用语义匹配器构造语义相似度损失函数;根据s501生成的概率分布,选取概率大于概率阈值th的句子,th设置为0.5;将句子进行组合构成预测摘要,并将其送入bert模型得到预测摘要的特征向量;将参考摘要送入bert模型得到参考摘要的特征向量;语义匹配器计算预测摘要的特征向量和本文档来自技高网...
【技术保护点】
1.基于关键词异构图和语义匹配的金融文本摘要方法,其特征在于:所述方法包括以下步骤:
2.根据权利要求1所述的基于关键词异构图和语义匹配的金融文本摘要方法,其特征在于:其中,所述S100中对数据集的预处理和标注具体包含以下步骤:
3.根据权利要求1所述的基于关键词异构图和语义匹配的金融文本摘要方法,其特征在于:其中,所述S200中提取文档中的多级关键词具体包含以下步骤:
4.根据权利要求1所述的基于关键词异构图和语义匹配的金融文本摘要方法,其特征在于:其中,所述S300中构建关键词异构图具体包含以下步骤:
5.根据权利要求1所述的基于关键词异构图和语义匹配的金融文本摘要方法,其特征在于:其中,所述S500中对句子二分类交叉熵损失函数Loss_BCE和语义相似度损失函数Loss_CS进行求和,生成组合损失函数Loss具体包含以下步骤:
【技术特征摘要】
1.基于关键词异构图和语义匹配的金融文本摘要方法,其特征在于:所述方法包括以下步骤:
2.根据权利要求1所述的基于关键词异构图和语义匹配的金融文本摘要方法,其特征在于:其中,所述s100中对数据集的预处理和标注具体包含以下步骤:
3.根据权利要求1所述的基于关键词异构图和语义匹配的金融文本摘要方法,其特征在于:其中,所述s200中提取文档中的多级关键词具体包含以下步骤:...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。