【技术实现步骤摘要】
文档管理方法、装置、设备及介质
[0001]本公开涉及人工智能领域,更具体地涉及一种文档管理方法、装置、设备、介质和程序产品。
技术介绍
[0002]当前,人们已经逐步意识到,数据资产对于科技发展、产品研发、生产决策等越来越重要。其中,在一些分析和研究工作中,通常会以文档为载体进行数据资产的存储和传递,例如,各种研究报告、学术文章、资讯信息等。
[0003]在实现本公开构思的过程中,专利技术人发现:在形成文档资料的时候,针对所分析的主题或领域中的问题,通常会用到一些分析指标来进行定性或定量的分析。借助于这些分析指标可以判断该主题或领域中所关心的问题的当前状态、变化趋势或演进方向。可见,这些分析指标对于决策具有非常重要的价值。然而,以往在进行形成文档类数据资产时,往往仅存储文档本身,在有些平台中也会存储摘要或关键字等内容,但是并没有将分析指标作为文档的重要部分加以提炼和利用,这导致文档资料中的分析指标的价值难以被挖掘和利用。
技术实现思路
[0004]鉴于上述问题,本公开提供了一种可以从分析指标的角度进行文档类数据资产的管理的文档管理方法、装置、设备、介质和程序产品。
[0005]本公开实施例的第一个方面,提供了一种文档管理方法。所述方法包括:获取第一文档;识别第一文档的语句中出现的第一分析指标;以及基于所述第一分析指标,建立所述第一文档的指标标签。
[0006]根据本公开的实施例,所述识别第一文档的语句中出现的第一分析指标包括:利用第一人工智能模型识别所述第一文档中的所述第一分 ...
【技术保护点】
【技术特征摘要】
1.一种文档管理方法,包括:获取第一文档;识别第一文档的语句中出现的第一分析指标;以及基于所述第一分析指标,建立所述第一文档的指标标签。2.根据权利要求1所述的方法,其中,所述识别第一文档的语句中出现的第一分析指标包括:利用第一人工智能模型识别所述第一文档中的所述第一分析指标,其中,所述第一人工智能模型是基于自然语言处理和机器学习技术得到的。3.根据权利要求2所述的方法,其中,所述利用第一人工智能模型识别所述第一文档中的所述第一分析指标包括:对所述第一文档中的语句进行分词处理;利用所述第一人工智能模型识别分词后的所述第一文档中的每个词与所述第一分析指标的关系;以及基于所述第一人工智能模型识别出的每个词与所述第一分析指标的关系,将与所述第一分析指标相关的一个词或连续的多个词组合输出,以得到所述第一分析指标。4.根据权利要求3所述的方法,其中,所述第一人工智能模型识别出的每个词与所述第一分析指标的关系包括:与所述第一分析指标相关、或与所述第一分析指标无关;其中,与所述第一分析指标相关包括以下至少之一:位于所述第一分析指标的开头、位于所述第一分析指标的中间或位于所述第一分析指标的结尾。5.根据权利要求2~4任意一项所述的方法,其中,所述第一人工智能模型是通过如下方式训练得到的:获取至少一个第二文档;以所述第二文档中的语句作为训练数据,对所述训练数据进行分词;基于分词后的所述训练数据中每个词与所述第一分析指标的关系,对所述训练数据中每个词进行标注;以及利用标注后的所述训练数据训练所述第一人工智能模型。6.根据权利要求5所述的方法,其中,所述第一人工智能模型采用条件随机场模型。7.根据权利要求1所述的方法,其中,在所述建立所述第一文档的指标标签之前,所述方法还包括:在识别得到多个所述第一分析指标时,基于对所述第一分析指标的语义分析,计算每两个所述第一分析指标的相似度;并将相似度大于相似阈值的每两个所述第一分析指标进行合并;和/或统计识别出的每个所述第一分析指标在所述第一文档中的出现次数,并将所述出现次数满足剔除条件的所述第一分析指标剔除。8.根据权利要求1所述的方法,其中,所述方法还包括:识别所述第一分析指标的属性信息,其中,所述属性信息包括以下至少之一:在所述第一文档中的关键性或指标类型;其中,所述关键性用于指示所述第一分析
指标是否为所述第一文档中的关键指标;则,所述基于所述第一分析指标,建立所述第一文档的指标标签还包括:基于所述第一分析指标和所述第一分析指标的所述属性信息,构建所述指标标签的内容。9.根据权利要求8所述的方法,其中,所述识别所述第一分析指标的属性信息包括:获取用于评估所述第一分析指标在所述第一文档中的所述关键性的M个评估因素的数值,M为大于或等于2的整数;基于所述M个评估因素的数值,得到所述第一分析指标的第一特征向量;以及以所述第一特征向量作为指标评价回归模型的输入,并基于所述指标评价回归模型的输出确定所述第一分析指标在所述第一文档中的所述关键性。10.根据权利要求9所述的方法,其中,所述M个评估因素包括以下至少之一:所述第一分析指标在所述第一文档中的出现位置;所述第一分析指标在所述第一文档中的分析篇幅;或所述第一分析指标在所述第一文档中的出现次数。11.根据权利要求10所述的方法,其中,所述获取用于评估所述第一分析指标在所述第一文档中的所述关键性的M个评估因素的数值包括:获取用于表征所述第一分析指标在所述第一文档中的出现位置的数值,具体包括:检索从所述第一文档中识别出的N个所述第一分析指标在所述第一文档中的首次出现位置,其中,N为大于或等于2的整数;基于所述首次出现位置的先后顺序,对N个所述第一分析指标进行编号;以及基于每个所述第一分析指标的编号,确定表征每个所述第一分析指标在所述第一文档中的出现位置的数值。12.根据权利要求10所述的方法,其中,所述获取用于评估所述第一分析指标在所述第一文档中的所述关键性的M个评估因素的数值包括:获取用于表征所述第一分析指标在所述第一文档中的分析篇幅的数值,具体包括:获取所述第一分析指标在所述第一文档中所属的标题的标题级别,得到目标标题级别;其中,所述标题级别依据标题层级结构而确定;以及基于所述目标标题级别,得到用于...
【专利技术属性】
技术研发人员:胡屹,马无缰,张展,王敬凯,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。