用于验证用户数据的方法、装置和计算机可读介质制造方法及图纸

技术编号:28943993 阅读:21 留言:0更新日期:2021-06-18 21:53
本发明专利技术涉及数据处理技术,特别涉及用于验证用户数据的方法以及实施该方法的装置和计算机可读存储介质。按照本发明专利技术一个方面的用于验证用户数据的方法包含在计算机系统处执行的下列步骤:A1)接收与用户相关联的文本数据和图像数据;A2)确定所述文本数据和图像数据在一个或多个维度上的自洽性;A3)确定所述文本数据和图像数据与预先存储的本地数据在一个或多个维度上的匹配性;以及A4)基于所述自洽性和匹配性确定所述文本数据和图像数据是否通过验证。

【技术实现步骤摘要】
用于验证用户数据的方法、装置和计算机可读介质
本专利技术涉及数据处理技术,特别涉及用于验证用户数据的方法以及实施该方法的装置和计算机可读存储介质。
技术介绍
对于数据服务商来说,其服务质量高度依赖于数据的真实性和准确性,因此在数据处理领域,数据的真实可靠是一个核心课题。然而在手工录入的数据中,人为的错误不可避免;此外,用户出于自身利益的考量也有可能提供错误的数据。公开号为CN109858927A的中国专利申请公开了一种商户审核方法。该方法包括下列步骤:接收商户的终端设备发送的商户审核申请,并从所述商户审核申请中提取所述商户的商户标识;根据所述商户标识分别从各个预设的数据源中获取所述商户在各个预设的审核维度上的商户信息;根据各个审核维度上的商户信息构造所述商户的商户信息向量;使用预设的审核模型对所述商户的商户信息向量进行计算,得到所述商户的审核结果,所述审核模型为经过预设的样本集合训练的机器学习模型,所述样本集合中包括审核结果为通过的正样本以及审核结果为不通过的负样本,每个样本均对应于预设的数据库中的一条历史商户审核记录。为了获得准确的审核结果,上述商户审核方法采用预设的审核模型对商户审核申请进行处理,该模型作为机器学习模型需要积累大量的训练样本,这无疑增加了实施的难度。此外,基于机器学习算法的审核模型无法提供显性的审核规则,当被审核数据出现系统性和/或趋势性的变化(例如用户的行为模式或提供错误数据的模式)时,需要应用新的样本对模型进行训练,因此不够灵活,而且也无法及时更新模型。由上可见,需要提供一种能够解决上述问题的用于验证用户数据的方案。
技术实现思路
本专利技术的一个目的是提供一种用于验证用户数据的方法以及实现该方法的计算机系统和计算机可读存储介质,其具有实施灵活方便和准确性高的优点。按照本专利技术一个方面的用于验证用户数据的方法包含在计算机系统处执行的下列步骤:A1)接收与用户相关联的文本数据和图像数据;A2)确定所述文本数据和图像数据在一个或多个维度上的自洽性;A3)确定所述文本数据和图像数据与预先存储的本地数据在一个或多个维度上的匹配性;以及A4)基于所述自洽性和匹配性确定所述文本数据和图像数据是否通过验证。可选地,在上述方法中,所述文本数据用于指示商户名称和场景类别,所述图像数据用于呈现场景画面和商户门头画面。可选地,在上述方法中,步骤A2)包括:A21)利用场景分类算法确定所述场景画面所代表的场景类别并且利用光学字符识别算法从所述商户门头画面中提取商户名称;以及A22)确定场景类别维度和商户名称维度中的至少一个的自洽性,其中,基于从所述场景画面识别的场景类别与所述文本数据指示的场景类别的一致性程度来确定场景类别维度的自洽性,并且基于从所述商户门头画面提取的商户名称与所述文本数据指示的商户名称的一致性程度来确定商户名称维度的自洽性。可选地,在上述方法中,所述文本数据还用于指示商户地址以及发送文本数据和图像数据的终端的位置信息。可选地,在上述方法中,在步骤A22)中,还基于所述文本数据指示的商户地址与位置信息的一致性程度来确定地理位置维度的自洽性。可选地,在上述方法中,所述图像数据还用于呈现商户的证照文件。可选地,在上述方法中,步骤A3)包括:A31)利用光学字符识别算法确定所述证照文件中的身份标识信息;A32)确定身份标识维度、商户名称维度和地理位置维度中的至少一个的匹配性,其中,基于从所述证照文件识别的身份标识信息与本地或远程数据库存储的身份标识信息的一致性程度来确定身份标识维度的匹配性,基于从所述商户门头画面提取的商户名称、所述文本数据指示的商户名称和本地或远程数据库存储的商户名称的一致性程度来确定商户名称维度的匹配性,并且基于所述文本数据指示的商户地址、位置信息和本地或远程数据库存储的商户地址的一致性程度确定地理位置维度的匹配性。可选地,在上述方法中,步骤A3)包括:A31)利用分类器,由从所述商户门头画面中提取的商户名称与文本数据所指示的商户名称中的至少一项确定商户所属的行业类别;以及A32)基于利用所述分类器确定的行业类别与本地或远程数据库存储的行业类别的一致性程度来确定行业类别维度的匹配性。可选地,在上述方法中,执行下列步骤以生成所述分类器:B1)获取训练样本集,所述训练样本集包含多个具有行业类别标签并被赋予相应权重的商户名称样本;B2)利用第一分类器和第二分类器分别生成各个商户名称样本所属行业类别的第一预测概率向量和第二预测概率向量;B3)基于各个商户名称样本的第一预测概率向量和第二预测概率向量分别确定第一分类器和第二分类器的预测结果相对于行业类别标签的总体偏差程度;以及B4)联合所述第一分类器和第二分类器以得到所述分类器,其中,基于第一分类器和第二分类器的预测结果相对于行业类别标签的总体偏差程度来确定所述第一分类器和第二分类器的权重。可选地,在上述方法中,其中,所述第一分类器为双隐层神经网络模型,并且第二分类器为BERT模型。可选地,在上述方法中,步骤A4)包括:A41)对所述自洽性和匹配性的每个维度进行量化评分;A42)通过加权求和每个维度的量化评分得到所述文本数据和图像数据的质量量度;以及A43)基于所述质量量度来确定所述文本数据和图像数据是否通过验证。可选地,在上述方法中,在步骤A41)中,利用下列中的一种对所述自洽性和匹配性的每个维度进行量化评分:余弦相似度、Sigmoid函数映射和分段函数。按照本专利技术另一个方面的计算机系统包含:存储器;处理器;以及存储在所述存储器上并可在所述处理器上运行的计算机程序以执行下列步骤:A1)接收与用户相关联的文本数据和图像数据;A2)确定所述文本数据和图像数据在一个或多个维度上的自洽性;A3)确定所述文本数据和图像数据与预先存储的本地数据在一个或多个维度上的匹配性;以及A4)基于所述自洽性和匹配性确定所述文本数据和图像数据是否通过验证。按照本专利技术还有一个方面的计算机可读存储介质,其上存储计算机程序,其中,该程序被处理器执行时实现如上所述的方法。在本专利技术的一个或多个实施例中,基于数据在多个维度上的自洽性和匹配性对用户数据进行验证,因此提供了较高的验证能力。特别是,在商户名称和场景类别维度上检验文本数据与图像数据之间的自洽性,在地理位置维度上检验输入的商户地址和硬件设备(终端)自动提供的位置信息之间的自洽性,并且在商户名称、地理位置和行业类别维度上检验输入的数据与已有数据之间的匹配性,这使得能够利用数据形式或来源的多样性来提高数据验证能力。此外,在本专利技术的一个或多个实施例中,利用第一和第二分类器得到用于确定行业类别的分类器,其中第一分类器为结构相对简单的双隐层神经网络模型,而作为第二分类器的BERT模型为自然语言处理领域中的通用型预训练模型,由此可本文档来自技高网
...

【技术保护点】
1.一种用于验证用户数据的方法,其特征在于,所述方法包含在计算机系统处执行的下列步骤:/nA1)接收与用户相关联的文本数据和图像数据;/nA2)确定所述文本数据和图像数据在一个或多个维度上的自洽性;/nA3)确定所述文本数据和图像数据与预先存储的本地数据在一个或多个维度上的匹配性;以及/nA4)基于所述自洽性和匹配性确定所述文本数据和图像数据是否通过验证。/n

【技术特征摘要】
1.一种用于验证用户数据的方法,其特征在于,所述方法包含在计算机系统处执行的下列步骤:
A1)接收与用户相关联的文本数据和图像数据;
A2)确定所述文本数据和图像数据在一个或多个维度上的自洽性;
A3)确定所述文本数据和图像数据与预先存储的本地数据在一个或多个维度上的匹配性;以及
A4)基于所述自洽性和匹配性确定所述文本数据和图像数据是否通过验证。


2.如权利要求1所述的方法,其中,所述文本数据用于指示商户名称和场景类别,所述图像数据用于呈现场景画面和商户门头画面。


3.如权利要求2所述的方法,其中,步骤A2)包括:
A21)利用场景分类算法确定所述场景画面所代表的场景类别并且利用光学字符识别算法从所述商户门头画面中提取商户名称;以及
A22)确定场景类别维度和商户名称维度中的至少一个的自洽性,其中,基于从所述场景画面识别的场景类别与所述文本数据指示的场景类别的一致性程度来确定场景类别维度的自洽性,并且基于从所述商户门头画面提取的商户名称与所述文本数据指示的商户名称的一致性程度来确定商户名称维度的自洽性。


4.如权利要求3所述的方法,其中,所述文本数据还用于指示商户地址以及发送文本数据和图像数据的终端的位置信息。


5.如权利要求4所述的方法,其中,在步骤A22)中,还基于所述文本数据指示的商户地址与位置信息的一致性程度来确定地理位置维度的自洽性。


6.如权利要求4所述的方法,其中,所述图像数据还用于呈现商户的证照文件。


7.如权利要求6所述的方法,其中,步骤A3)包括:
A31)利用光学字符识别算法确定所述证照文件中的身份标识信息;
A32)确定身份标识维度、商户名称维度和地理位置维度中的至少一个的匹配性,其中,基于从所述证照文件识别的身份标识信息与本地或远程数据库存储的身份标识信息的一致性程度来确定身份标识维度的匹配性,基于从所述商户门头画面提取的商户名称、所述文本数据指示的商户名称和本地或远程数据库存储的商户名称的一致性程度来确定商户名称维度的匹配性,并且基于所述文本数据指示的商户地址、位置信息和本地或远程数据库存储的商户地址的一致性程度确定地理位置维度的匹配性。


8.如权利要求2-7中任意一项所述的方法,其中,步骤A3)包括:
A31)利用分类器,由从所述商户门头画面中提取的商户名称与文本数据所指示的商户名称中的至少一项确定商户所属的行业类别;以及
A32)基于利用所述分类器确定的行业类别与本地或远程数据库存储的行业类别的一致性程度来确定行业类别维度的匹配性。


9.如权利要求8所述的方法,其中,执行下列步骤以生成所述分类器:
B1)获取训练样本集,所述训练样本集包含多个具有行业类别标签并被赋予相应权重的商户名称样本;
B2)利用第一分类器和第二分类器分别生成各个商户名称样本所属行业类别的第一预测概率向量和第二预测概率向量;
B3)基于各个商户名称样本的第一预测概率向量和第二预测概率向量分别确定第一分类器和第二分类器的预测结果相对于行业类别标签的总体偏差程度;以及
B4)联合所述第一分类器和第二分类器以得到所述分类器,其中,基于第一分类器和第二分类器的预测结果相对于行业类别标签的总体偏差程度来确定所述第一分类器和第二分类器的权重。


10.如权利要求9所述的方法,其中,所述第一分类器为双隐层神经网络模型,并且第二分类器为BERT模型。


11.如权利要求1所述的方法,其中,步骤A4)包括:
A41)对所述自洽性和匹配性的每个维度进行量化评分;
A42)通过加权求和每个维度的量化评分得到所述文本数据和图像数据的质量量度;以及
A43)基于所述质量量度来确定所述文本数据和图像数据是否通过验证。


12.如权利要求11所述的方法,其中,在步骤A41)中,利用下列中的一种对所述自洽性和匹配性的每个维度进行量化评分:余弦相似度、Sigmoid函数映射和分段函数。


13.一种计算机系统,其特征在于,包含:
存储器;
处理器;以及
存储在所述存储器上并可在所述处理器上运行的计算机程序以执行下列步骤:...

【专利技术属性】
技术研发人员:马博良韩博文李志彬陆超豪金思源冯兴呼如生
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1