System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于财会知识张量图的问答对自动生成方法技术_技高网

一种基于财会知识张量图的问答对自动生成方法技术

技术编号:42565928 阅读:12 留言:0更新日期:2024-08-29 00:34
本发明专利技术公开了一种基于财会知识张量图的问答对自动生成方法,根据财会领域的专业公式构建财会知识张量图,利用财会知识张量图的遍历自动生成财务数值推理程序,根据财会数值推理程序通过大型语言模型如GPT‑3.5‑turbo等自动生成有意义的财务问题及其答案;首先使用TAT‑QA、FinQA和FinLLM数据集来训练每个模型;随后,使用FinQA测试数据集来测试所有的模型,以验证和比较训练数据集的贡献效果。结果表明,由FinLLM产生的合成数据不仅表现出更高的理解水平,而且目前也更容易获得;FinLLM生成的合成数据质量的这一前景趋势强调了其在金融领域的各种应用中提供有价值的见解和支持的潜力。

【技术实现步骤摘要】

本专利技术属于计算机应用,具体涉及一种基于财会知识张量图的问答对自动生成方法


技术介绍

1、财务分析是评估业务绩效的一种关键手段,为了促进高质量、及时的决策,专业人士分析人员需要在文本格式的财务报告间执行复杂的数值推理[1]。基于自然语言处理技术的智能问答系统已经成为辅助人们获取信息和知识的重要途径。与传统的搜索引擎相比,智能问答系统能够更好地满足用户的特定信息需求,提供更加智能化的结果。构建金融领域的智能问答系统,实现财务语料的自动化分析,有利于降低获取和分析企业的财务状况的技术壁垒。

2、金融智能问答系统旨在基于财务报表和报告的理解来回答专业的财务问题,较于传统的智能问答系统,金融智能问答更具挑战性。金融智能问答(例如,比较盈利能力或增长的财务比率)实现的是财务专业领域的复杂定量分析而不是简单的阅读理解,要求系统跨越多个财务报告发现相关信息,然后创建一个数值推理路径来连接所有信息。

3、金融领域的自然语言处理技术对金融行业的发展具有巨大的作用,可广泛应用于市场评估预测、投资形势预判、欺诈行为检测和风险管理等领域。最近的大量研究工作试图开发金融领域的智能问答系统,构建了涉及财务数值推理的财务问答对数据集。

4、drop是用于离散推理型阅读理解的数值推理数据集,包括约77000个问题的训练集、约9500个问题的开发集和一个大小与开发集相似的测试集,主要集中于简单的数值计算和比较。

5、tat-qa数据集是一个基于真实财务报表整理,由金融领域专家根据给定的混合语境创建问题-答案对。该数据集包括来自182份财务报告的2,757个混合语境和16,552个相应的问题-回答对。混合语境由一个表格和至少两个围绕它的相关段落组成,给定一个混合语境,至少会产生6个问题,包括提取和计算的问题。提取问题的答案是来自表格或相关段落的多个片段。对于计算型问题,需要通过数值推理来得出答案,包括加法、减法、乘法、除法、计数、比较/排序和它们的组合。

6、finqa是第一个面向真实财务文件处理复杂智能问答任务的标注数据集,目前广泛应用于金融智能问答领域。该数据集包含8,281个财务问答对以及它们的数值推理过程。finqa使用的数据来源于fintabnet数据集中收集的1999年至2019年标准公司的公开收益,包含文本描述和财务表格。finqa招聘金融专业人士标注问答对数据,标注人员被要求撰写一个“对财务分析或学习公司财务报告的见解有意义”的问题,并需要通过数值计算来回答,在提供问题后,注释者被要求详细说明回答问题的操作步骤。此外,标注人员还需要标记支持事实,即包含回答问题所需的信息的文本中所有句子和表格中的相关单元格。该数据集中59.10%的程序有1个推理步骤,32.71%的程序有2个推理步骤,其余8.19%的程序有3个或以上步骤。

7、multihiertt也是一个利用fintabnet数据集提供跨层次表多步骤数值推理问答对的财务标注数据集。该数据集包含10440个财务问答对,并提供了推理过程和支持事实的细粒度注释。与finqa数据集相比,multihiertt数据集中财务报告包含多个表和较长的非结构化文本。但multihiertt数据集还不成熟,目前还处于不断完善和修正阶段。

8、与传统的智能问答系统一样,构建金融智能问答系统依赖人工标注问答对作为训练数据,但金融智能问答系训练数据集的标注成本昂贵,如finqa金融数据集中标注一个完整的问答对与推理过程的标注价格为2美金。财会类问答对标注代价昂贵的原因在于:1)金融智能问答系统的人工标注对标注人员素质要求高,需要领域财务专家统跨越多个财务报告进行阅读和执行复杂的数值推理。2)财务问答对的标注内容复杂。金融智能问答系统依赖文本阅读和财会数值推理,为了实现财务数值推理的训练,财务专家不仅需要标注问题和答案,还需要标注财务数理推理过程用于创建数值推理路径以实现财务报告之间的相关信息的链接。构建以上面向金融混合数据的财务对数据集需要专业人士花费大量时间标注和检验,标注效率和成本很难满足快速迭代和大规模应用的需求。此外由于标注效率低,人工构建的财务问答对数据集中的推理过程步骤较少。还可能会出现部分推理操作缺失和不均衡的情况,限制了金融智能问答系统的性能。

9、因此,研究智能化、高效化、高质量的财务问答对标注方法和技术,构建高质量的大规模财务问答对数据集对于推动金融智能问答系统的发展和应用具有至关重要的意义。


技术实现思路

1、有鉴于此,本专利技术的目的是提供一种基于财会知识张量图的问答对自动生成方法。

2、一种基于财会知识张量图的问答对自动生成方法,包括如下步骤:

3、步骤一、财会知识张量图构建,具体为:

4、定义财务计算公式:

5、eargq=op1[eargs1],op2[eargs2]...,opn[eargsn]

6、式中eargq代表输出变量,opi代表第i个运算操作,eargsi表示财务计算公式中第i个变量向量;n表示运算操作的次数;

7、定义财会知识有向图g(v,e)由变量间的相互操作构成;v={varg1,varg2,..........vargm}是图中节点集合,每个节点代表财务计算公式,节点属性包括该公式涉及的变量名称和运算操作;e={op1,op2,..........opn}是图中边集合,边表示计算公式间的联系,边的属性为计算结果的变量名,某一节点引出的边,指向那些所有包含该节点计算结果的财务计算公式的节点;

8、定义财会知识张量图ft是由若干个时间点的财会知识有向图构成;

9、步骤二、财务推理程序生成:

10、推理程序是财务问答对自动生成的关键。本专利技术首先给出推理程序的定义。

11、定义推理程序如下式所示,由多个财务计算公式组成:

12、p={op1[args1],op2[args2]...,opn[argsn]→earg}

13、opi代表第i个运算操作,每个运算操作opi都包含一个操作参数列表argsi,earg表示推理程序的输出变量,{op1[args1],op2[args2]...,opn[argsn]}表示推理程序的推理路径;

14、推理路径对应于张量图中节点间的路径,通过对张量图的遍历生成推理路径集合,推理路径集合的生成步骤如下:

15、1)从张量图g中任意一顶点v为初始出发点,首先访问出发点v;

16、2)然后依次从节点v出发搜索v的每个邻接点,将当前节点和w组合生成新的节点n并为其添加相关边;继续从n进行深度优先遍历,直到图中所有和v有路径相通的节点都被访问到,此时标记v为已访问节点;

17、其中,如果节点v对应公式的计算结果变量是某个邻接点w1计算公式中的变量,则节点v和节点w1之间的关系生成一个新的公式,定义为m;节点m指向所有节点w1指向的节点;

18、3)若本文档来自技高网...

【技术保护点】

1.一种基于财会知识张量图的问答对自动生成方法,其特征在于,包括如下步骤:

2.如权利要求1所述的一种基于财会知识张量图的问答对自动生成方法,其特征在于,有向图中的节点还包括没有参与财务公式计算的变量,称之为终节点。

3.如权利要求1所述的一种基于财会知识张量图的问答对自动生成方法,其特征在于,财会知识张量中不同时刻财会知识图中的对应节点之间根据需求进行操作。

【技术特征摘要】

1.一种基于财会知识张量图的问答对自动生成方法,其特征在于,包括如下步骤:

2.如权利要求1所述的一种基于财会知识张量图的问答对自动生成方法,其特征在于,有向图中的节点还包括没有参与...

【专利技术属性】
技术研发人员:袁汉宁袁自强朱守泰王楷源
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1