一种基于强化学习的抗风险企业合规智能决策方法技术

技术编号:36405832 阅读:54 留言:0更新日期:2023-01-18 10:14
本发明专利技术公开了一种基于强化学习的抗风险企业合规智能决策方法,通过对企业合规状况信息中的企业合规状况和决策进行处理,进而计算得到决策合规概率分布;而后计算当前企业合规状况下各决策的评分,得到决策评分集合,根据决策评分集合采样得到预测决策;根据决策合规概率分布得到与预测决策相对应的合规概率;并更新计算得到决策评分集合过程;直至与预测决策相对应的合规概率升至最高并收敛,得到当前企业合规状况下的最优决策。该方法实现了基于企业合规状况信息能够全自动、智能地选择当前企业合规状况下最优的抗风险决策。企业合规状况下最优的抗风险决策。企业合规状况下最优的抗风险决策。

【技术实现步骤摘要】
一种基于强化学习的抗风险企业合规智能决策方法


[0001]本专利技术涉及企业合规风控
,具体涉及一种基于强化学习的抗风险企业合规智能决策方法。

技术介绍

[0002]随着企业规模的扩大,维持企业的稳定发展离不开企业内部的严格管理。目前,企业合规管理被认为是企业管理的三大支柱之一,企业合规需要智能的、抗风险的决策方法,有效规避经营风险,弥补经营损失,从而获得更高的经济效益。
[0003]企业合规是自我管理、自我监督、自我整改的治理方式,当前企业合规管理仍高度依赖人工管理。企业内部需要识别的风险形式多样,仅通过人工管理难以达到理想的合规目标,导致企业合规工作开展进度缓慢,难以自适应对企业合规复杂的合规状况信息作出合理决策,增大了企业的经营风险。

技术实现思路

[0004]因此,本专利技术要解决的技术问题在于克服现有技术中企业合规管理依赖人工管理、企业合规工作开展进度缓慢的缺陷,从而提供一种基于强化学习的抗风险企业合规智能决策方法。
[0005]本专利技术提供了一种基于强化学习的抗风险企业合规智能决策方法,该方法包括:计算决策合规概率分布,S1:获取企业合规状况信息,企业合规状况信息包括企业合规状况和决策;S2:对企业合规状况和决策进行预处理,分别得到企业合规状况向量和决策向量;对企业合规状况向量和决策向量进行映射,分别得到企业合规状况特征向量和决策特征向量;S3:根据企业合规状况特征向量得到企业合规状况语义向量;S4:基于企业合规状况语义向量和决策特征向量计算决策合规概率分布;决策合规概率分布包括当前企业合规状况下各决策的合规概率;优化决策,S5:基于企业合规状况向量计算得到决策评分集合;决策评分集合包括当前企业合规状况下各决策的评分;S6:基于决策评分集合构建离散概率分布;根据离散概率分布得到预测决策;S7:根据决策合规概率分布得到与预测决策相对应的合规概率;更新计算得到决策评分集合过程;S8:重复S5、S6以及S7,直至与预测决策相对应的合规概率升至最高并收敛,得到当前企业合规状况下的最优决策。
[0006]优选的,S2中,使用one

hot编码对企业合规状况和决策进行预处理,分别得到企业合规状况向量和决策向量;企业合规状况向量记为:;决策向量记为:
;ele1表示第一种企业合规状况,ele
n
表示第n种企业合规状况;dec1表示第一种决策;dec
m
表示第m种决策。
[0007]优选的,S2中,采用线性全连接神经网络将企业合规状况向量映射为企业合规状况特征向量;采用线性全连接神经网络将决策向量映射为决策特征向量;企业合规状况特征向量记为:E
s
;决策特征向量记为:E
t

[0008]优选的,S3中,将企业合规状况特征向量分别输入至多个全连接网络进行线性变换;得到全连接层特征向量;采用缩放点积注意力方法对全连接层特征向量提取高维语义信息,得到企业合规状况语义向量;计算公式为:其中,I
s
表示企业合规状况语义向量;E
s
表示企业合规状况特征向量;表示第一个全连接网络;表示第二个全连接网络;表示第三个全连接网络;T为转置操作。
[0009]优选的,S4中,将企业合规状况语义向量分别输入至第四个全连接网络、第五个全连接网络进行线性变换;并将决策特征向量输入至第六个全连接网络进行线性变换;采用交叉注意力机制计算当前企业合规状况下各决策的合规概率,并采用Softmax函数计算决策合规概率分布;计算公式为:其中,Comp表示决策合规概率分布,记为:,c1表示当前企业合规状况下第一种决策的合规概率,c
m
表示当前企业合规状况下第m种决策的合规概率;表示第四个全连接网络;表示第五个全连接网络;表示第六个全连接网络;I
s
表示企业合规状况语义向量;E
t
表示决策特征向量;T为转置操作。
[0010]优选的,S5中,将企业合规状况向量输入至多层感知机,得到决策评分集合;计算公式为:其中,P表示决策评分集合,记为:;p1表示当前企业合规状况下第一种决策的评分,p
m
表示当前企业合规状况下第m种决策的评分;mlp表示多层感知机;S
s
表示企业合规状况向量。
[0011]优选的,S6中,基于决策评分集合构建离散概率分布;根据离散概率分布中的峰值概率对当前企业合规状况下的各决策进行采样,得到预测决策,预测决策记为:dec
i

[0012]优选的,S7中,更新计算得到决策评分集合过程包括更新多层感知机参数;根据决策评分集合和决策合规概率分布计算得到策略梯度,计算公式为:L=p
i
·
c
i
其中,L表示策略梯度;p
i
表示决策评分集合中预测决策dec
i
的评分;c
i
表示决策合规概率分布中预测决策dec
i
的合规概率;
通过最大化策略梯度以更新多层感知机参数;计算公式为:其中,θ表示多层感知机参数;表示当策略梯度最大时多层感知机参数的值;并采用梯度上升反向传播算法更新多层感知机各层的权重参数。
[0013]优选的,企业合规状况包括但不限于企业行政规范达成度、财务规范达成度以及技术规范达成度。
[0014]优选的,决策包括但不限于行政合规处置对策、财务合规处置对策以及技术合规处置对策。
[0015]本专利技术技术方案,具有如下优点:通过对企业合规状况信息中的企业合规状况和决策进行处理,进而计算得到决策合规概率分布;而后计算当前企业合规状况下各决策的评分,得到决策评分集合,根据决策评分集合采样得到预测决策;根据决策合规概率分布得到与预测决策相对应的合规概率;并更新计算得到决策评分集合过程;直至与预测决策相对应的合规概率升至最高,得到当前企业合规状况下的最优决策。该方法实现了基于企业合规状况信息能够全自动、智能地选择当前企业合规状况下最优的抗风险决策。
附图说明
[0016]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1为本专利技术实施中一种基于强化学习的抗风险企业合规智能决策方法的流程图。
具体实施方式
[0018]下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0019]在本专利技术的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的抗风险企业合规智能决策方法,其特征在于,包括:计算决策合规概率分布,S1:获取企业合规状况信息,所述企业合规状况信息包括企业合规状况和决策;S2:对所述企业合规状况和所述决策进行预处理,分别得到企业合规状况向量和决策向量;对所述企业合规状况向量和所述决策向量进行映射,分别得到企业合规状况特征向量和决策特征向量;S3:根据所述企业合规状况特征向量得到企业合规状况语义向量;S4:基于所述企业合规状况语义向量和所述决策特征向量计算决策合规概率分布;所述决策合规概率分布包括当前企业合规状况下各决策的合规概率;优化决策,S5:基于所述企业合规状况向量计算得到决策评分集合;所述决策评分集合包括当前企业合规状况下各决策的评分;S6:基于所述决策评分集合构建离散概率分布;根据离散概率分布得到预测决策;S7:根据所述决策合规概率分布得到与预测决策相对应的合规概率;更新计算得到决策评分集合过程;S8:重复S5、S6以及S7,直至所述与预测决策相对应的合规概率升至最高并收敛,得到当前企业合规状况下的最优决策。2.根据权利要求1所述的一种基于强化学习的抗风险企业合规智能决策方法,其特征在于,S2中,使用one

hot编码对所述企业合规状况和所述决策进行预处理,分别得到所述企业合规状况向量和所述决策向量;所述企业合规状况向量记为:;所述决策向量记为:;ele1表示第一种企业合规状况,ele
n
表示第n种企业合规状况;dec1表示第一种决策;dec
m
表示第m种决策。3.根据权利要求1所述的一种基于强化学习的抗风险企业合规智能决策方法,其特征在于,S2中,采用线性全连接神经网络将所述企业合规状况向量映射为企业合规状况特征向量;采用线性全连接神经网络将所述决策向量映射为决策特征向量;所述企业合规状况特征向量记为:E
s
;所述决策特征向量记为:E
t
。4.根据权利要求1所述的一种基于强化学习的抗风险企业合规智能决策方法,其特征在于,S3中,将所述企业合规状况特征向量分别输入至多个全连接网络进行线性变换;得到所述全连接层特征向量;采用缩放点积注意力方法对所述全连接层特征向量提取高维语义信息,得到所述企业合规状况语义向量;计算公式为:其中,I
s
表示企业合规状况语义向量;E
s
表示企业合规状况特征向量;表示第一个全连接网络;表示第二个全连接网络;表示第三个全连接网络;T为转置操作。5.根据权利要求1所述的一种基于强化学习的抗风险企业合规智能决策方法,其特征在于,S4中,将所述企业合规状况语义向量分别...

【专利技术属性】
技术研发人员:胡为民
申请(专利权)人:深圳市迪博企业风险管理技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1