一种基于融合模型的质押资产智能查重方法及系统技术方案

技术编号:37245628 阅读:9 留言:0更新日期:2023-04-20 23:25
本发明专利技术提供了一种基于融合模型的质押资产智能查重的方法及系统,方法包括根据用户输入市场主体名称以及对比标的物,通过异步查询策略在中登网数据库中搜索该市场主体有效登记记录并下载;全部登记证明文件及其附件的PDF格式文件和JPG格式文件进行文本抽取,得到结构化和半结构化的文本结果;将文本结果与对比标的物进行对比分析,判定对比标的物是否存在重复质押,并返回查重结果。本申请侧重于对质押资产进行智能查重,通过改进的OCR识别模型与PDF解析和OCR识别的融合模型,快速且准确的对识别出的文本内容做结构化输出,从而提高查重正确率和速度。查重正确率和速度。查重正确率和速度。

【技术实现步骤摘要】
一种基于融合模型的质押资产智能查重方法及系统


[0001]本专利技术涉及质押资产智能查重
,特别涉及一种基于融合模型的质押资产智能查重方法及系统。

技术介绍

[0002]中登网(中国动产融资统一登记系统)通过动产与权利担保登记公示了市场主体的应收账款质押、应收账款转让和融资租赁等动产担保的详细记录,在质押融资担保业务中,为了避免市场主体的质押资产重复抵押的业务风险,需要在中登网查询市场主体的该笔质押资产是否有被重复质押担保,市场主体在中登网登记的应收账款等质押资产通常包含数以万计笔小资产,单纯靠人工从中登网搜索、查询和下载该市场主体登记过的全部质押资产并逐个跟对比标的物对比分析会非常耗费人力、物力和财力,且发生人工误判的风险也较高。
[0003]在质押融资担保审查业务中,现有技术方案是基于NLP技术和智能分类实现资产查重技术,例如专利申请号CN202111671968.3、名称为基于智能分类的资产查重方法、系统、设备及计算机可读存储介质的专利,其是按照预设的资产描述项对识别获得的内容进行预先的资产内容分类,以便在后续的关键词检索过程中可以根据检索条件更为快速便捷地寻找到符合检索描述的资产内容信息,为了防止出现遗漏情况,还会将不是该资产描述类型的原始资产登记文件同步进行反馈展示,以供用户对原始资产登记文件进行二次查验,防止在核查资产是否有被重复登记的过程中出现遗漏的情况。
[0004]针对上述专利提到的技术方案,侧重于如何快速便捷地寻找到符合检索描述的资产内容信息,而非如何判定资产重复质押,基于此,亟需一种质押资产智能查重方法及系统来快速、高效的判定在质押担保融资业务中审核市场主体的待质押资产是否存在重复质押的风险。

技术实现思路

[0005]本专利技术提供一种基于融合模型的质押资产智能查重方法及系统,该方法通过融合模型识别、分析市场主体的待质押资产与其全部已登记质押资产,对市场主体进行全面而又系统的智能查重,来真正解决质押融资担保中质押资产查重的业务痛点。
[0006]第一方面,提供了一种基于融合模型的质押资产智能查重的方法,采用如下技术方案:
[0007]一种基于融合模型的质押资产智能查重的方法,包括如下步骤:
[0008]根据用户输入市场主体名称以及对比标的物的操作,启动中登网数据爬虫引擎;
[0009]根据所述市场主体名称以及对比标的物,通过异步查询策略在中登网数据库中搜索所述市场主体名称下的有效登记记录;
[0010]从中登网数据库批量下载所述有效登记记录的登记证明文件及其附件,并上传至S3对象存储协议构建的块存储访问数据模块;
[0011]将所述登记证明文件及其附件中的PDF格式文件转化为JPG格式文件;将转化后的登记证明的标准PDF文件输入具有PDF解析和OCR识别功能的融合模型并抽取出登记证明表格的结构化的文本结果,将除所述标准PDF文件外的其它文件转化后输入OCR识别模型,抽取出半结构化的文本结果;
[0012]通过汇总模型识别半结构化的文本结果和结构化的文本结果,并将识别得到的文本结果临时存入块存储访问数据模块;
[0013]将半结构化的文本结果和结构化的文本结果与市场主体的对比标的物进行对比分析,如果发票代码、发票编号或合同代码、合同编号中任意一项与对比标的物存在重复,则返回未通过查重;如果全都不重复,判断合同名称或债务人名称是否与对比标的物存在重复,如果合同名称或债务人名称与对比标的物存在重复,则转给人工审核,如果合同名称或债务人名称与对比标的物不重复,则返回通过查重。
[0014]优选的,在所述如果合同名称或债务人名称与对比标的物不重复之后还包括利用关键词识别模型判断半结构化的文本结果和结构化的文本结果是否包含敏感关键词,如果包含敏感关键词则转给人工审核,如果没问题才返回通过查重。
[0015]优选的,所述将转化后的标准PDF文件输入具有PDF解析和OCR识别功能的融合模型并抽取出登记证明表格的结构化的文本结果,包括:
[0016]通过OCR识别模型处理标准PDF文件的JPG格式的第一页,识别抽取得到结构化的文本结果;
[0017]判断所述OCR识别模型识别出的文本字符串长度是否超过设定的阈值,如果超过设定的阈值,则开始调用PDF解析模型处理对应页码的标准PDF文件的PDF格式文件,并结合长文本段落的上下文语义拼接成完整的长文本段落添加进结构化结果字典的对应位置,得到结构化的文本结果。
[0018]优选的,所述OCR识别模型的处理流程包括:
[0019]将JPG格式的文件输入所述OCR识别模型,得到多处文本框的文本内容及文本框的位置坐标;
[0020]获取所述OCR识别模型识别出的每处文本框的文本内容及文本框的位置坐标,计算本处文本框的中心点位置坐标并存储为临时变量;
[0021]具有位置关系的每处文本内容通过对应的中心点位置坐标找到匹配的key

value文本对;
[0022]具有语义关系的文本内容通过对应的中心点位置坐标找到匹配的上下文字符串。
[0023]优选的,所述具有位置关系的每处文本内容通过对应的中心点位置坐标找到匹配的key

value文本对,包括:
[0024]计算某一文本内容的所述中心点位置坐标与另一文本内容的所述中心点位置坐标的纵坐标间的差值;
[0025]如果差值在设定的阈值范围内则某一文本内容与另一文本内容为key

value文本对。
[0026]优选的,所述具有语义关系的文本内容通过对应的中心点位置坐标找到匹配的上下文字符串,包括:
[0027]计算文本内容上下两部分文本字符串的中心点位置坐标的横坐标间差值;
[0028]如果所述横坐标间差值在设定的阈值范围内则将两部分文本字符串拼接为语义完整的文本字符串。
[0029]第二方面,提供了一种基于融合模型的质押资产智能查重的系统,采用如下技术方案:
[0030]一种基于融合模型的质押资产智能查重的系统,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如第一方面所述一种基于融合模型的质押资产智能查重的方法。
[0031]第三方面,提供了一种计算机可读存储介质,采用如下技术方案:
[0032]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的一种基于融合模型的质押资产智能查重的方法。
[0033]与现有技术相比,本专利技术提供了一种基于融合模型的质押资产智能查重的方法及系统,侧重于在质押担保融资业务中全面而系统的对质押资产进行智能查重,通过改进的OCR识别模型可以很好的匹配每处文本内容之间的语义关系和位置关系,通过PDF解析和OCR识别融合模型可以快速且准确的对识别出的文本内容做结构化输出,从而提高查重正确率和速度。
[0034]本专利技术的其它本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于融合模型的质押资产智能查重的方法,其特征在于,包括如下步骤:根据用户输入市场主体名称以及对比标的物的操作,启动中登网数据爬虫引擎;根据所述市场主体名称以及对比标的物,通过异步查询策略在中登网数据库中搜索所述市场主体名称下的有效登记记录;从中登网数据库批量下载所述有效登记记录的登记证明文件及其附件,并上传至S3对象存储协议构建的块存储访问数据模块;将所述登记证明文件及其附件中的PDF格式文件转化为JPG格式文件;将转化后的登记证明的标准PDF文件输入具有PDF解析和OCR识别功能的融合模型并抽取出登记证明表格的结构化的文本结果,将除所述标准PDF文件外的其它文件转化后输入OCR识别模型,抽取出半结构化的文本结果;通过汇总模型识别半结构化的文本结果和结构化的文本结果,并将识别得到的文本结果临时存入块存储访问数据模块;将半结构化的文本结果和结构化的文本结果与市场主体的对比标的物进行对比分析,如果发票代码、发票编号或合同代码、合同编号中任意一项与对比标的物存在重复,则返回未通过查重;如果全都不重复,判断合同名称或债务人名称是否与对比标的物存在重复,如果合同名称或债务人名称与对比标的物存在重复,则转给人工审核,如果合同名称或债务人名称与对比标的物不重复,则返回通过查重。2.根据权利要求1所述的方法,其特征在于,在所述如果合同名称或债务人名称与对比标的物不重复之后还包括利用关键词识别模型判断半结构化的文本结果和结构化的文本结果是否包含敏感关键词,如果包含敏感关键词则转给人工审核,如果没问题才返回通过查重。3.根据权利要求1所述的方法,其特征在于,所述将转化后的标准PDF文件输入具有PDF解析和OCR识别功能的融合模型并抽取出登记证明表格的结构化的文本结果,包括:通过OCR识别模型处理标准PDF文件的JPG格式的第一页,识别抽取得到结构化的文本结果;判断所述OCR识别模型识别出的文本字符串长度是否超过设定的阈值,如果超过设定的阈值,则开始调用PDF解析模型处理对应页码的标准...

【专利技术属性】
技术研发人员:申宇峰李建斌
申请(专利权)人:蔷薇大树科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1