文档管理方法、装置、设备及介质制造方法及图纸

技术编号:34339383 阅读:97 留言:0更新日期:2022-07-31 03:36
本公开提供了一种文档管理方法,属于人工智能技术领域。该方法包括:获取第一文档;识别第一文档的语句中出现的第一分析指标;以及基于所述第一分析指标,建立所述第一文档的指标标签。本公开还提供了一种文档管理装置、设备、存储介质和程序产品。存储介质和程序产品。存储介质和程序产品。

【技术实现步骤摘要】
文档管理方法、装置、设备及介质


[0001]本公开涉及人工智能领域,更具体地涉及一种文档管理方法、装置、设备、介质和程序产品。

技术介绍

[0002]当前,人们已经逐步意识到,数据资产对于科技发展、产品研发、生产决策等越来越重要。其中,在一些分析和研究工作中,通常会以文档为载体进行数据资产的存储和传递,例如,各种研究报告、学术文章、资讯信息等。
[0003]在实现本公开构思的过程中,专利技术人发现:在形成文档资料的时候,针对所分析的主题或领域中的问题,通常会用到一些分析指标来进行定性或定量的分析。借助于这些分析指标可以判断该主题或领域中所关心的问题的当前状态、变化趋势或演进方向。可见,这些分析指标对于决策具有非常重要的价值。然而,以往在进行形成文档类数据资产时,往往仅存储文档本身,在有些平台中也会存储摘要或关键字等内容,但是并没有将分析指标作为文档的重要部分加以提炼和利用,这导致文档资料中的分析指标的价值难以被挖掘和利用。

技术实现思路

[0004]鉴于上述问题,本公开提供了一种可以从分析指标的角度进行文档类数据资产的管理的文档管理方法、装置、设备、介质和程序产品。
[0005]本公开实施例的第一个方面,提供了一种文档管理方法。所述方法包括:获取第一文档;识别第一文档的语句中出现的第一分析指标;以及基于所述第一分析指标,建立所述第一文档的指标标签。
[0006]根据本公开的实施例,所述识别第一文档的语句中出现的第一分析指标包括:利用第一人工智能模型识别所述第一文档中的所述第一分析指标,其中,所述第一人工智能模型是基于自然语言处理和机器学习技术得到的。
[0007]根据本公开的实施例,所述利用第一人工智能模型识别所述第一文档中的所述第一分析指标包括:对所述第一文档中的语句进行分词处理;利用所述第一人工智能模型识别分词后的所述第一文档中的每个词与所述第一分析指标的关系;以及基于所述第一人工智能模型识别出的所述每个词与所述第一分析指标的关系,将与所述第一分析指标相关的一个词或连续的多个词组合输出,以得到所述第一分析指标。
[0008]根据本公开的实施例,所述第一人工智能模型识别出的每个词与所述第一分析指标的关系包括:与所述第一分析指标相关、或与所述第一分析指标无关。其中,与所述第一分析指标相关包括以下至少之一:位于所述第一分析指标的开头、位于所述第一分析指标的中间、或位于所述第一分析指标的结尾。
[0009]根据本公开的实施例,所述第一人工智能模型是通过如下方式训练得到的:获取至少一个第二文档;以所述第二文档中的语句作为训练数据,对所述训练数据进行分词;基
于分词后的所述训练数据中每个词与所述第一分析指标的关系,对所述训练数据中每个词进行标注;以及利用标注后的所述训练数据训练所述第一人工智能模型。
[0010]根据本公开的实施例,所述第一人工智能模型采用条件随机场模型。
[0011]根据本公开的实施例,在所述建立所述第一文档的指标标签之前,所述方法还包括:在识别得到多个所述第一分析指标时,基于对所述第一分析指标的语义分析,计算每两个所述第一分析指标的相似度;并将相似度大于相似阈值的每两个所述第一分析指标进行合并;和/或统计识别出的每个所述第一分析指标在所述第一文档中的出现次数,并将所述出现次数满足剔除条件的所述第一分析指标剔除。
[0012]根据本公开的实施例,所述方法还包括:识别所述第一分析指标的属性信息,其中,所述属性信息包括以下至少之一:在所述第一文档中的关键性或指标类型;其中,所述关键性用于指示所述第一分析指标是否为所述第一文档中的关键指标。则所述基于所述第一分析指标,建立所述第一文档的指标标签还包括:基于所述第一分析指标和所述第一分析指标的所述属性信息,构建所述指标标签的内容。
[0013]根据本公开的实施例,所述识别所述第一分析指标的属性信息包括:获取用于评估所述第一分析指标在所述第一文档中的所述关键性的M个评估因素的数值,M为大于或等于2的整数;基于所述M个评估因素的数值,得到所述第一分析指标的第一特征向量;以及以所述第一特征向量作为指标评价回归模型的输入,并基于所述指标评价回归模型的输出确定所述第一分析指标在所述第一文档中的所述关键性。
[0014]根据本公开的实施例,所述M个评估因素包括以下至少之一:所述第一分析指标在所述第一文档中的出现位置;所述第一分析指标在所述第一文档中的分析篇幅;或所述第一分析指标在所述第一文档中的出现次数。
[0015]根据本公开的实施例,所述获取用于评估所述第一分析指标在所述第一文档中的所述关键性的M个评估因素的数值包括,获取用于表征所述第一分析指标在所述第一文档中的出现位置的数值。具体包括:检索从所述第一文档中识别出的N个所述第一分析指标在所述第一文档中的首次出现位置,其中,N为大于或等于2的整数;基于所述首次出现位置的先后顺序,对N个所述第一分析指标进行编号;以及基于每个所述第一分析指标的编号,确定表征每个所述第一分析指标在所述第一文档中的出现位置的数值。
[0016]根据本公开的实施例,所述获取用于评估所述第一分析指标在所述第一文档中的所述关键性的M个评估因素的数值包括:获取用于表征所述第一分析指标在所述第一文档中的分析篇幅的数值。具体包括:获取所述第一分析指标在所述第一文档中所属的标题的标题级别,得到目标标题级别;其中,所述标题级别依据标题层级结构而确定;以及基于所述目标标题级别,得到用于表征所述第一分析指标在所述第一文档中的所述分析篇幅的数值。
[0017]根据本公开的实施例,所述获取所述第一分析指标在所述第一文档中所属的标题的标题级别包括:当所述第一分析指标出现在所述第一文档的标题中时,获取所述第一分析指标所在的标题的所述标题级别;或者当所述第一分析指标没有出现在所述第一文档的标题中时,确定所述第一分析指标所在的段落所属的标题,并获取该标题的标题级别。
[0018]根据本公开的实施例,所述基于所述目标标题级别,得到用于表征所述第一分析指标在所述第一文档中的所述分析篇幅的数值包括:基于预设的所述标题级别与数值的转
换关系,将所述第一文档中的最高的标题级别转换得到第一数值;所述最高的标题级别为所述标题层级结构中位于最上层的标题的级别;基于所述标题级别与数值的转换对应关系,将所述目标标题级别转换得到第二数值;以及以所述第一数值作为预设的归一化模型的参数,以所述第二数值作为所述归一化模型的变量,计算得到用于表征所述第一分析指标在所述第一文档中的所述分析篇幅的数值。
[0019]根据本公开的实施例,所述方法还包括:设置所述标题级别与数值的转换关系,其中,所述标题级别在所述标题层级结构中的位置越高,转换得到的数值越大。
[0020]根据本公开的实施例,所述识别所述第一分析指标的属性信息包括:利用第二人工智能模型识别所述第一分析指标的所述指标类型,其中,所述第二人工智能模型是基于机器学习技术得到的多分类模型。
[0021]根据本公开的实施例,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档管理方法,包括:获取第一文档;识别第一文档的语句中出现的第一分析指标;以及基于所述第一分析指标,建立所述第一文档的指标标签。2.根据权利要求1所述的方法,其中,所述识别第一文档的语句中出现的第一分析指标包括:利用第一人工智能模型识别所述第一文档中的所述第一分析指标,其中,所述第一人工智能模型是基于自然语言处理和机器学习技术得到的。3.根据权利要求2所述的方法,其中,所述利用第一人工智能模型识别所述第一文档中的所述第一分析指标包括:对所述第一文档中的语句进行分词处理;利用所述第一人工智能模型识别分词后的所述第一文档中的每个词与所述第一分析指标的关系;以及基于所述第一人工智能模型识别出的每个词与所述第一分析指标的关系,将与所述第一分析指标相关的一个词或连续的多个词组合输出,以得到所述第一分析指标。4.根据权利要求3所述的方法,其中,所述第一人工智能模型识别出的每个词与所述第一分析指标的关系包括:与所述第一分析指标相关、或与所述第一分析指标无关;其中,与所述第一分析指标相关包括以下至少之一:位于所述第一分析指标的开头、位于所述第一分析指标的中间或位于所述第一分析指标的结尾。5.根据权利要求2~4任意一项所述的方法,其中,所述第一人工智能模型是通过如下方式训练得到的:获取至少一个第二文档;以所述第二文档中的语句作为训练数据,对所述训练数据进行分词;基于分词后的所述训练数据中每个词与所述第一分析指标的关系,对所述训练数据中每个词进行标注;以及利用标注后的所述训练数据训练所述第一人工智能模型。6.根据权利要求5所述的方法,其中,所述第一人工智能模型采用条件随机场模型。7.根据权利要求1所述的方法,其中,在所述建立所述第一文档的指标标签之前,所述方法还包括:在识别得到多个所述第一分析指标时,基于对所述第一分析指标的语义分析,计算每两个所述第一分析指标的相似度;并将相似度大于相似阈值的每两个所述第一分析指标进行合并;和/或统计识别出的每个所述第一分析指标在所述第一文档中的出现次数,并将所述出现次数满足剔除条件的所述第一分析指标剔除。8.根据权利要求1所述的方法,其中,所述方法还包括:识别所述第一分析指标的属性信息,其中,所述属性信息包括以下至少之一:在所述第一文档中的关键性或指标类型;其中,所述关键性用于指示所述第一分析
指标是否为所述第一文档中的关键指标;则,所述基于所述第一分析指标,建立所述第一文档的指标标签还包括:基于所述第一分析指标和所述第一分析指标的所述属性信息,构建所述指标标签的内容。9.根据权利要求8所述的方法,其中,所述识别所述第一分析指标的属性信息包括:获取用于评估所述第一分析指标在所述第一文档中的所述关键性的M个评估因素的数值,M为大于或等于2的整数;基于所述M个评估因素的数值,得到所述第一分析指标的第一特征向量;以及以所述第一特征向量作为指标评价回归模型的输入,并基于所述指标评价回归模型的输出确定所述第一分析指标在所述第一文档中的所述关键性。10.根据权利要求9所述的方法,其中,所述M个评估因素包括以下至少之一:所述第一分析指标在所述第一文档中的出现位置;所述第一分析指标在所述第一文档中的分析篇幅;或所述第一分析指标在所述第一文档中的出现次数。11.根据权利要求10所述的方法,其中,所述获取用于评估所述第一分析指标在所述第一文档中的所述关键性的M个评估因素的数值包括:获取用于表征所述第一分析指标在所述第一文档中的出现位置的数值,具体包括:检索从所述第一文档中识别出的N个所述第一分析指标在所述第一文档中的首次出现位置,其中,N为大于或等于2的整数;基于所述首次出现位置的先后顺序,对N个所述第一分析指标进行编号;以及基于每个所述第一分析指标的编号,确定表征每个所述第一分析指标在所述第一文档中的出现位置的数值。12.根据权利要求10所述的方法,其中,所述获取用于评估所述第一分析指标在所述第一文档中的所述关键性的M个评估因素的数值包括:获取用于表征所述第一分析指标在所述第一文档中的分析篇幅的数值,具体包括:获取所述第一分析指标在所述第一文档中所属的标题的标题级别,得到目标标题级别;其中,所述标题级别依据标题层级结构而确定;以及基于所述目标标题级别,得到用于...

【专利技术属性】
技术研发人员:胡屹马无缰张展王敬凯
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1