System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于人工智能领域,具体涉及一种基于迁移学习的自适应文档选择摘要生成方法。
技术介绍
1、智能化是档案领域深化应用中的一个重要且前沿的问题。传统档案系统在档案编研领域多采取人工方式进行,往往效率很低,难以适应大规模数据处理和快速检索的需求。智能化档案系统正逐渐成为档案管理领域的变革性力量。智能化技术可以通过自动化的数据处理、智能分类和精准检索,大大提高档案管理的效率和准确性。它不仅能够减轻人工的负担,还可以提供更智能的分析和预测功能,从而帮助组织更好地利用和管理档案资源。
2、以多源、异构、海量、繁杂归档电子文件的自动编研需求为目标,研究将人工智能、大模型等技术融入电子档案领域,通过摘要自动生成方法实现释放人力,使海量异构的电子数据进入档案管理系统以后实现自动编研这一目标,创新档案编研工作人工智能辅助编研的工作模式。摘要生成方法主要包括抽取式摘要和生成式摘要两种,抽取式摘要方法从给定的文档中选择句子作为摘要。抽取式摘要通过从原始文档中直接选择关键句子来生成摘要。这种方法的优点是实现相对简单,但生成的摘要缺乏流畅性和连贯性。生成式摘要则通过分析训练数据中输入文本与输出摘要之间的关系模式,生成新的句子形成摘要,具有更大的灵活性和表达能力。然而,这种方法要求训练数据应与目标文档的领域相符,而在档案领域构建标注大规模数据比较困难。迁移学习可以有效地解决训练数据不足的问题,利用源域的训练数据来提升模型性能。通过从源域中提取相关实例,迁移学习可以改善摘要生成的质量。
技术实现思路
>1、(一)要解决的技术问题
2、本专利技术要解决的技术问题是如何提供一种基于迁移学习的自适应文档选择摘要生成方法,以解决人工智能辅助档案编研的问题。
3、(二)技术方案
4、为了解决上述技术问题,本专利技术提出一种基于迁移学习的自适应文档选择摘要生成方法,该方法包括:
5、利用基于词分布的文档选择方法和基于摘要趋势的文档选择方法对源文档和档案的少量训练文档进行过滤,从中筛选出一批高质量的训练数据,用其训练第一词向量生成器,进而得到基础摘要生成模型;
6、通过自适应文档选择方法对源文档和测试文档进行进一步筛选,根据测试文档的特征,选择出与之相关性强的源文档,以生成定制化的训练数据,用其训练第二词向量生成器,优化基础摘要生成模型,进一步构建定制摘要生成模型,更为精准地满足具体档案类别的需求。
7、(三)有益效果
8、本专利技术提出一种基于迁移学习的自适应文档选择摘要生成方法,本专利技术提出了一种自适应文档选择摘要生成方法,该方法有助于改进档案领域的文档摘要模型。该方法通过档案的词分布和摘要趋势来选择训练数据。本专利技术自适应选择档案通过词向量生成网络训练定制化模型,为每类档案建立一个定制的摘要模型。本专利技术通过使用自适应文档选择摘要生成方法提高档案的相关性,避免负迁移的产生,提高摘要生成的性能。
9、1)实现摘要自动生成,促进档案智能化
10、利用迁移学习技术避免使用大量档案训练摘要生成模型,将源域中的训练数据和少量的档案数据输入词向量生成网络,训练摘要自动生成模型。结合抽取式和生成式两种方式有效的复制档案中的信息,同时保留生成式创新的能力,通过设置覆盖机制跟踪摘要生成过程,减少摘要中要素的重复率,提高档案摘要生成的准确性,实现档案摘要生成的智能化。
11、2)去除档案负迁移,增加摘要相关性
12、档案与源文档之间相关性较大,源域中不相关文档的特征会干扰模型训练的过程,出现负迁移现象,导致生成的摘要偏离档案的实际需求和上下文。本专利技术提出的基于词分布的文档选择方法和基于摘要趋势的文档选择方法能够提高源文档和档案的相似度,确保迁移学习过程中训练得到的模型与档案相关,减少负迁移现象,增加摘要的相关性,实现高质量的文档摘要生成。
13、3)实现摘要定制化,提高摘要准确性
14、档案中存在包含次要主题的特定测试文档,次要主题可能在总结涉及相同主题的档案时提供重要的信息。上述过滤过程可能会忽略一些对特定测试文档至关重要的源文档。自适应文档选择方法建立了一个定制的摘要模型,通过分析测试文档的词分布选择特定主题的源文档,确保在构建摘要模型时充分利用测试文档中特定主题上有价值的源文档。自适应选择机制不仅避免了因计算词分布概率的局限性而丢失重要信息,还能够精准地捕捉到测试文档的核心内容,从而提升摘要的准确性。
本文档来自技高网...【技术保护点】
1.一种基于迁移学习的自适应文档选择摘要生成方法,其特征在于,该方法包括:
2.如权利要求1所述的基于迁移学习的自适应文档选择摘要生成方法,其特征在于,第一词向量生成器和第二词向量生成器采用的词向量生成器网络包括:输入源文档,其中表示第份文档,通过编码器和解码器处理得到第份文档的输出,所有源文档的输出为。
3.如权利要求2所述的基于迁移学习的自适应文档选择摘要生成方法,其特征在于,编码器采用传统的双向网络结构,用于捕捉源文档的长距离依赖关系以及位置信息;输入档案数据集合,其中表示第份文档,代表词语大小维度的独热向量、每个编码器接收词语的嵌入作为输入,经过双向网络处理之后输出编码状态;编码状态带有词语之间的位置特征、长距离依赖关系和上下文特征。
4.如权利要求3所述的基于迁移学习的自适应文档选择摘要生成方法,其特征在于,解码器采用单层网络结构,通过接收编码器产生的编码状态在单步时间内计算解码状态,通过编码状态和解码状态计算注意力权重;
5.如权利要求1-4任一项所述的基于迁移学习的自适应文档选择摘要生成方法,其特征在于,所述基于词分布
6.如权利要求5所述的基于迁移学习的自适应文档选择摘要生成方法,其特征在于,所述基于摘要趋势的文档选择方法包括:通过摘要长度与摘要压缩率两个特征来表征档案,生成趋势特征直方图,通过词分布计算得到对应的概率分布,在源文档中选择概率相近的训练数据。
7.如权利要求6所述的基于迁移学习的自适应文档选择摘要生成方法,其特征在于,所述基于摘要趋势的文档选择方法具体包括:
8.如权利要求7所述的基于迁移学习的自适应文档选择摘要生成方法,其特征在于,所述自适应文档选择方法包括:
9.如权利要求8所述的基于迁移学习的自适应文档选择摘要生成方法,其特征在于,该方法最终提供一个摘要自动生成模型,该摘要自动生成模型提供两个基本的接口:文档交互接口和摘要输出接口,与档案综合管理系统进行交互。
10.如权利要求9所述的基于迁移学习的自适应文档选择摘要生成方法,其特征在于,文档交互接口是对自适应文档选择方法的封装,从档案综合管理系统输入的文档包括档案、源文档和测试文档,以过滤后的档案和源文档的唯一标识作为输入,若源文档过滤完成,反馈结果为true,若源文档过滤失败,反馈结果为false;摘要输出接口是对定制摘要生成模型的封装,以唯一标识作为输入生成摘要结果,若摘要生成完成,则向档案综合管理系统输出true,若摘要生成失败,则向档案综合管理系统输出false。
...【技术特征摘要】
1.一种基于迁移学习的自适应文档选择摘要生成方法,其特征在于,该方法包括:
2.如权利要求1所述的基于迁移学习的自适应文档选择摘要生成方法,其特征在于,第一词向量生成器和第二词向量生成器采用的词向量生成器网络包括:输入源文档,其中表示第份文档,通过编码器和解码器处理得到第份文档的输出,所有源文档的输出为。
3.如权利要求2所述的基于迁移学习的自适应文档选择摘要生成方法,其特征在于,编码器采用传统的双向网络结构,用于捕捉源文档的长距离依赖关系以及位置信息;输入档案数据集合,其中表示第份文档,代表词语大小维度的独热向量、每个编码器接收词语的嵌入作为输入,经过双向网络处理之后输出编码状态;编码状态带有词语之间的位置特征、长距离依赖关系和上下文特征。
4.如权利要求3所述的基于迁移学习的自适应文档选择摘要生成方法,其特征在于,解码器采用单层网络结构,通过接收编码器产生的编码状态在单步时间内计算解码状态,通过编码状态和解码状态计算注意力权重;
5.如权利要求1-4任一项所述的基于迁移学习的自适应文档选择摘要生成方法,其特征在于,所述基于词分布的文档选择方法包括:
6.如权利要求5所述的基于迁移学习的自适应文档选择摘要生成方法,其特征在于,所述基于...
【专利技术属性】
技术研发人员:魏隆星,姜杉,李晖,董泽,李亚卓,朱陌痕,张舜尧,
申请(专利权)人:北京计算机技术及应用研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。