System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于计算机应用,具体涉及一种基于财会知识张量图的问答对自动生成方法。
技术介绍
1、财务分析是评估业务绩效的一种关键手段,为了促进高质量、及时的决策,专业人士分析人员需要在文本格式的财务报告间执行复杂的数值推理[1]。基于自然语言处理技术的智能问答系统已经成为辅助人们获取信息和知识的重要途径。与传统的搜索引擎相比,智能问答系统能够更好地满足用户的特定信息需求,提供更加智能化的结果。构建金融领域的智能问答系统,实现财务语料的自动化分析,有利于降低获取和分析企业的财务状况的技术壁垒。
2、金融智能问答系统旨在基于财务报表和报告的理解来回答专业的财务问题,较于传统的智能问答系统,金融智能问答更具挑战性。金融智能问答(例如,比较盈利能力或增长的财务比率)实现的是财务专业领域的复杂定量分析而不是简单的阅读理解,要求系统跨越多个财务报告发现相关信息,然后创建一个数值推理路径来连接所有信息。
3、金融领域的自然语言处理技术对金融行业的发展具有巨大的作用,可广泛应用于市场评估预测、投资形势预判、欺诈行为检测和风险管理等领域。最近的大量研究工作试图开发金融领域的智能问答系统,构建了涉及财务数值推理的财务问答对数据集。
4、drop是用于离散推理型阅读理解的数值推理数据集,包括约77000个问题的训练集、约9500个问题的开发集和一个大小与开发集相似的测试集,主要集中于简单的数值计算和比较。
5、tat-qa数据集是一个基于真实财务报表整理,由金融领域专家根据给定的混合语境创建问题-答案对。
6、finqa是第一个面向真实财务文件处理复杂智能问答任务的标注数据集,目前广泛应用于金融智能问答领域。该数据集包含8,281个财务问答对以及它们的数值推理过程。finqa使用的数据来源于fintabnet数据集中收集的1999年至2019年标准公司的公开收益,包含文本描述和财务表格。finqa招聘金融专业人士标注问答对数据,标注人员被要求撰写一个“对财务分析或学习公司财务报告的见解有意义”的问题,并需要通过数值计算来回答,在提供问题后,注释者被要求详细说明回答问题的操作步骤。此外,标注人员还需要标记支持事实,即包含回答问题所需的信息的文本中所有句子和表格中的相关单元格。该数据集中59.10%的程序有1个推理步骤,32.71%的程序有2个推理步骤,其余8.19%的程序有3个或以上步骤。
7、multihiertt也是一个利用fintabnet数据集提供跨层次表多步骤数值推理问答对的财务标注数据集。该数据集包含10440个财务问答对,并提供了推理过程和支持事实的细粒度注释。与finqa数据集相比,multihiertt数据集中财务报告包含多个表和较长的非结构化文本。但multihiertt数据集还不成熟,目前还处于不断完善和修正阶段。
8、与传统的智能问答系统一样,构建金融智能问答系统依赖人工标注问答对作为训练数据,但金融智能问答系训练数据集的标注成本昂贵,如finqa金融数据集中标注一个完整的问答对与推理过程的标注价格为2美金。财会类问答对标注代价昂贵的原因在于:1)金融智能问答系统的人工标注对标注人员素质要求高,需要领域财务专家统跨越多个财务报告进行阅读和执行复杂的数值推理。2)财务问答对的标注内容复杂。金融智能问答系统依赖文本阅读和财会数值推理,为了实现财务数值推理的训练,财务专家不仅需要标注问题和答案,还需要标注财务数理推理过程用于创建数值推理路径以实现财务报告之间的相关信息的链接。构建以上面向金融混合数据的财务对数据集需要专业人士花费大量时间标注和检验,标注效率和成本很难满足快速迭代和大规模应用的需求。此外由于标注效率低,人工构建的财务问答对数据集中的推理过程步骤较少。还可能会出现部分推理操作缺失和不均衡的情况,限制了金融智能问答系统的性能。
9、因此,研究智能化、高效化、高质量的财务问答对标注方法和技术,构建高质量的大规模财务问答对数据集对于推动金融智能问答系统的发展和应用具有至关重要的意义。
技术实现思路
1、有鉴于此,本专利技术的目的是提供一种基于财会知识张量图的问答对自动生成方法。
2、一种基于财会知识张量图的问答对自动生成方法,包括如下步骤:
3、步骤一、财会知识张量图构建,具体为:
4、定义财务计算公式:
5、eargq=op1[eargs1],op2[eargs2]...,opn[eargsn]
6、式中eargq代表输出变量,opi代表第i个运算操作,eargsi表示财务计算公式中第i个变量向量;n表示运算操作的次数;
7、定义财会知识有向图g(v,e)由变量间的相互操作构成;v={varg1,varg2,..........vargm}是图中节点集合,每个节点代表财务计算公式,节点属性包括该公式涉及的变量名称和运算操作;e={op1,op2,..........opn}是图中边集合,边表示计算公式间的联系,边的属性为计算结果的变量名,某一节点引出的边,指向那些所有包含该节点计算结果的财务计算公式的节点;
8、定义财会知识张量图ft是由若干个时间点的财会知识有向图构成;
9、步骤二、财务推理程序生成:
10、推理程序是财务问答对自动生成的关键。本专利技术首先给出推理程序的定义。
11、定义推理程序如下式所示,由多个财务计算公式组成:
12、p={op1[args1],op2[args2]...,opn[argsn]→earg}
13、opi代表第i个运算操作,每个运算操作opi都包含一个操作参数列表argsi,earg表示推理程序的输出变量,{op1[args1],op2[args2]...,opn[argsn]}表示推理程序的推理路径;
14、推理路径对应于张量图中节点间的路径,通过对张量图的遍历生成推理路径集合,推理路径集合的生成步骤如下:
15、1)从张量图g中任意一顶点v为初始出发点,首先访问出发点v;
16、2)然后依次从节点v出发搜索v的每个邻接点,将当前节点和w组合生成新的节点n并为其添加相关边;继续从n进行深度优先遍历,直到图中所有和v有路径相通的节点都被访问到,此时标记v为已访问节点;
17、其中,如果节点v对应公式的计算结果变量是某个邻接点w1计算公式中的变量,则节点v和节点w1之间的关系生成一个新的公式,定义为m;节点m指向所有节点w1指向的节点;
18、3)若本文档来自技高网...
【技术保护点】
1.一种基于财会知识张量图的问答对自动生成方法,其特征在于,包括如下步骤:
2.如权利要求1所述的一种基于财会知识张量图的问答对自动生成方法,其特征在于,有向图中的节点还包括没有参与财务公式计算的变量,称之为终节点。
3.如权利要求1所述的一种基于财会知识张量图的问答对自动生成方法,其特征在于,财会知识张量中不同时刻财会知识图中的对应节点之间根据需求进行操作。
【技术特征摘要】
1.一种基于财会知识张量图的问答对自动生成方法,其特征在于,包括如下步骤:
2.如权利要求1所述的一种基于财会知识张量图的问答对自动生成方法,其特征在于,有向图中的节点还包括没有参与...
【专利技术属性】
技术研发人员:袁汉宁,袁自强,朱守泰,王楷源,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。