System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种非结构化信息的行业分类方法及其系统技术方案_技高网

一种非结构化信息的行业分类方法及其系统技术方案

技术编号:40368944 阅读:9 留言:0更新日期:2024-02-20 22:13
本发明专利技术提供了一种非结构化信息的行业分类方法及其系统,涉及计算机系统领域。本发明专利技术对单位名称进行TF‑IDF特征提取,得到每个单位名称的特征向量;使用K‑means算法对特征向量进行聚类,将相似的单位名称分到同一个簇中;评估聚类结果,并调整优化TF‑IDF和K‑means的超参数,使用BTM模型对每个文本集合进行主题建模,得到每个主题的主题词;根据主题词和聚类结果,确定每个簇所代表的行业类别和主题特征;通过人工对于簇中的单位信息进行校准,得到分类模型的输入。本发明专利技术将征信报告中的非结构信息单位名称映射到行业分类,使其变成模型可以利用的、可以入模的变量,利用聚类、主题提取、分类模型等方法,减少人工标注的工作量,将单位名称映射到行业分类。

【技术实现步骤摘要】

本专利技术涉及计算机系统领域,具体而言,涉及一种非结构化信息的行业分类方法及其系统


技术介绍

1、信息可以大致分为结构化信息和非结构化信息。

2、结构化信息:结构化信息是指那些在数据结构上有着固定规律的信息,通常可以以表格或者数据的形式表示。例如,财务报表、数据库中的数据、电子邮件的列表等都是结构化信息的例子。这些信息可以被计算机程序很容易地理解和处理。

3、非结构化信息:非结构化信息是指那些没有固定规律或格式的信息,例如文本、图像、音频和视频等。这些信息无法简单地通过表格或数据的形式来表示,而需要更复杂的方法进行处理。例如,自然语言处理技术可以用来理解和处理文本信息,而图像识别技术可以用来理解和处理图像信息。

4、在某些情况下,非结构化信息可能需要转化为结构化信息才能被计算机程序有效地处理。例如,通过自然语言处理技术将文本转化为结构化的文本表示,或者通过图像识别技术将图像转化为结构化的表格或数据。

5、征信系统对个人信息的处理目的和处理方式是,通过采集、整理、保存、加工个人的基本信息、信贷信息和反映其信用状况的其他信息,建立个人信用信息共享机制,有效解决金融交易中的信息不对称问题,防范金融风险、推动信贷市场发展、支持实体经济发展、优化营商环境、提升社会信用意识。对于金融机构而言,利用征信报告可以评估并降低信用风险,促进金融业务的健康发展。

6、征信报告中的信息主要可以分为结构化信息和非结构化信息两大类。结构化信息在建模中利用较多,例如婚姻状况、学历等基本信息,信用卡额度、还款情况等信用相关信息、信用卡或贷款逾期情况、个人信用报告被查询记录、个人征信报告得分等。

7、由于非结构化信息不易被机器自动解析,因此在征信报告的处理和分析中,需要采用人工智能等技术手段对这些信息进行提取和分析,以支持金融机构进行风险评估和决策。

8、非机构化信息中的单位信息可以为金融机构提供申请人的工作单位信息,这些信息可以辅助金融机构从行业稳定性等方面判断申请人的信用风险。利用单位名称,可以通过单位名称关联企业知识图谱获取其行业、主营业务、公司规模等信息。在没有外部资源以及标注数据的情况下,对于单位信息的利用较为困难。

9、因此利用单位名称信息需要企业知识图谱的支撑,没有外部资源的支持下单位名称信息难以利用;若将单位信息映射为行业信息,需要大量的人工去标注训练数据。


技术实现思路

1、针对上述
技术介绍
中提出的需求,本专利技术实施例提供一种非结构化信息的行业分类方法及其系统,旨在将征信报告中的非结构信息单位名称映射到行业分类,使其变成模型可以利用的、可以入模的变量。利用聚类、主题提取、分类模型等方法,减少人工标注的工作量,将单位名称映射到行业分类。

2、一种非结构化信息的行业分类方法,具体步骤包括:

3、步骤一、数据准备,提取出单位名称字段,首先进行数据预处理;所述的数据预处理包括去除无效数据、数据格式化以及关键词匹配;

4、步骤二、聚类,对单位名称进行tf-idf特征提取,得到每个单位名称的特征向量;使用k-means算法对特征向量进行聚类,将相似的单位名称分到同一个簇中;评估聚类结果,并调整优化tf-idf和k-means的超参数;

5、步骤三、主题提取,根据聚类结果,将同一个簇中的所有单位名称合并为一个文本集合;对每个文本集合进行分词和去除停用词等预处理;将预处理后的文本集合转换为btm模型的输入格式;使用btm模型对每个文本集合进行主题建模,得到每个主题的主题词;根据主题词和聚类结果,确定每个簇所代表的行业类别和主题特征;通过人工对于簇中的单位信息进行校准,得到分类模型的输入;

6、步骤四、建立分类模型,将步骤三中通过人工校准的单位信息作为x,主题词作为y,训练bert分类模型。

7、进一步的:所述去除无效数据包括对需要对单位信息中的无效数据进行去除,所述无效数据包括空白数据的或者是无法识别的数据。

8、进一步的:所述数据格式化包括对单位名称包含的数字、符号进行清洗,使得数据具有统一的格式。

9、进一步的:所述关键词匹配通过词频统计得到关键词,基于单位名称中的关键字对单位名称进行区分。

10、进一步的:对于没有分到目前行业类别的单位信息重复步骤三以及步骤四直到所有的单位信息都归属到某个行业中,完成单位信息到行业信息的映射。

11、进一步的:一种非结构化信息的行业分类系统,包括:

12、数据预处理模块,该模块用于对提取出单位名称字段,并对单位名称字段进行去除无效数据、数据格式化以及关键词匹配处理;

13、聚类模块,该模块用于将单位名称进行tf-idf特征提取得到每个单位名称的特征向量,对上述特征向量进行聚类后将相似的单位名称分到同一个簇中;

14、主题提取模块,该模块用于根据聚类结果,将同一个簇中的所有单位名称合并为一个文本集合;

15、分类模型模块,该模块用于建立分类模型并训练bert分类模型。

16、进一步的:终端设备可以包括:处理器、存储介质和总线,存储介质存储有处理器可执行的机器可读指令,当终端设备运行时,处理器与存储介质之间通过总线通信,处理器执行机器可读指令,以执行时执行如前述实施例中所述的深度学习模型训练方法的步骤。

17、进一步的:一种存储介质,该存储有计算机程序,所述计算机程序被处理器运行时执行上述的方法的步骤。

18、进一步的:一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行上述所述的方法。

19、本专利技术的有益效果:本专利技术将征信报告中的非结构信息单位名称映射到行业分类,使其变成模型可以利用的、可以入模的变量,利用聚类、主题提取、分类模型等方法,减少人工标注的工作量,将单位名称映射到行业分类。

本文档来自技高网...

【技术保护点】

1.一种非结构化信息的行业分类方法,其特征在于,具体步骤包括:

2.根据权利要求1所述的方法,其特征在于,所述去除无效数据包括对需要对单位信息中的无效数据进行去除,所述无效数据包括空白数据的或者是无法识别的数据。

3.根据权利要求1所述的方法,其特征在于,所述数据格式化包括对单位名称包含的数字、符号进行清洗,使得数据具有统一的格式。

4.根据权利要求1所述的方法,其特征在于,所述关键词匹配通过词频统计得到关键词,基于单位名称中的关键字对单位名称进行区分。

5.根据权利要求1所述的方法,其特征在于,对于没有分到目前行业类别的单位信息重复步骤三以及步骤四直到所有的单位信息都归属到某个行业中,完成单位信息到行业信息的映射。

6.一种非结构化信息的行业分类系统,其特征在于,包括:数据预处理模块,该模块用于对提取出单位名称字段,并对单位名称字段进行去除无效数据、数据格式化以及关键词匹配处理;

7.一种终端设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述终端设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求1至5任一项所述的方法的步骤。

8.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至5任一项所述的方法的步骤。

9.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-5中任一项所述的方法。

...

【技术特征摘要】

1.一种非结构化信息的行业分类方法,其特征在于,具体步骤包括:

2.根据权利要求1所述的方法,其特征在于,所述去除无效数据包括对需要对单位信息中的无效数据进行去除,所述无效数据包括空白数据的或者是无法识别的数据。

3.根据权利要求1所述的方法,其特征在于,所述数据格式化包括对单位名称包含的数字、符号进行清洗,使得数据具有统一的格式。

4.根据权利要求1所述的方法,其特征在于,所述关键词匹配通过词频统计得到关键词,基于单位名称中的关键字对单位名称进行区分。

5.根据权利要求1所述的方法,其特征在于,对于没有分到目前行业类别的单位信息重复步骤三以及步骤四直到所有的单位信息都归属到某个行业中,完成单位信息到行业信息的映射。

6.一种非结构化信...

【专利技术属性】
技术研发人员:董美周明明沈宁波
申请(专利权)人:中信百信银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1