System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理,更具体地说涉及一种科技企业画像评价方法、系统、设备及存储介质。
技术介绍
1、随着社会经济不断发展,企业数量也呈现快速增加趋势。建立完善的企业画像评价体系,对于企业可以更好的了解资深业务情况、市场趋势。对于成果转化,可以根据企业画像与成果画像相互匹配,来推进成果落地。对于银行可以更好了解企业情况。现有的企业画像技术主要通过,采集企业工商信息、信用信息及经营信息等结构化数据,通过对数据进行统计分析来对企业进行评价。
2、现实社会中数据的来源是多源的,并且从时间维度上讲是不断发展的。现有的企业画像技术,存在以下缺陷:(1)简单的统计分析方法,提取的信息有限,画像内容单一;(2)没有从企业未来可能发展对企业做画像标签。
3、公开号为cn116187839a,公开日为2023年1月17日,名称为“基于大数据的科技创新能力画像建立与分析系统及方法”的专利技术专利申请,该专利技术专利申请公开了一种基于大数据的科技创新能力画像建立与分析系统及方法,所述方法包括:对需要评估的科技企业数据进行采集,特殊化处理加工和建立统一的标准;构建包含多个维度的一级指标和二级指标的企业创新能力算法评估模型,其所述一级指标包括创新资源、创新条件、创新产出、创新价值和行业领导力;对科技企业在创新资源、创新条件、创新产出、创新价值和行业领导力五大模块进行画像;将科技企业的创新能力画像进行大数据可视化技术的视觉展示。该系统和方法基于大数据,通过算法模型对科技型企业创新能力进行画像,对科技型企业创新能力进行客观综合评价,可
4、上述现有技术中采用的企业画像技术没有从企业未来可能的发展对企业做出画像标签。
技术实现思路
1、为了克服上述现有技术中存在的缺陷和不足,本专利技术提供了一种科技企业画像评价方法、系统、设备及存储介质,本专利技术的专利技术目的在于基于企业历史数据构建企业发展的预测模型,对企业未来发展进行预测分析,为相关部门提供数据分析支撑。
2、为了解决上述现有技术中存在的问题,本专利技术是通过下述技术方案实现的。
3、本专利技术第一方面提供了一种科技企业画像评价方法,该方法包括以下步骤:
4、s1、获取目标企业的多源数据,并按照时间维度提取得到目标企业的历史多源数据;
5、s2、对获取到的目标企业的历史多源数据进行数据梳理及数据清洗;
6、s3、对经过数据梳理及数据清理后的目标企业的历史多源数据,根据预测目标标签,构建训练样本集;
7、s4、对s3步骤构建的训练样本集中的文本类型数据,进行关键字提取,针对提取到的关键字进行标签编码,对训练样本集中的类别型数据进行独热编码;对于训练样本集中的数据型数据,进行一阶差分与二阶差分,得到其差值和增速信息;
8、s5、对s4步骤中衍生出的特征数据与该衍生出的特征数据对应的训练样本集中的原始数据做列拼接形成训练数据,作为mlp模型(multi-layer perception,多层感知器)的输入特征;对于训练数据做k折交叉验证,在交叉验证过程中,训练数据被划分为k个子集,mlp模型在k-1个子集上进行训练,并在剩余的一个子集上进行评估;这个过程重复k次,每个子集都作为验证集训练一次,最终得到k个模型;选择mse(均方误差)作为验证指标,选择mse最低的一次训练过程,该训练过程得到的模型即为目标企业的画像模型;
9、s6、根据s5步骤得到的目标企业的画像模型,对企业未来情况进行预测,得到目标企业未来发展的画像标签。
10、进一步优选的,针对所有目标标签,按照上述s3至s5步骤分别建立对应的目标标签画像模型,建立得到目标企业画像标签库。
11、进一步优选的,所述历史多源数据包括企业经营信息、知识产权信息、工商信息、人员信息、申报项目信息、技术合同登记信息和贷款申请信息。
12、进一步优选的,s1步骤中,获取目标企业的多源数据时,若获取到图片类型数据,则将图片数据转化为结构化数据,并进行信息提取;若获取到文本类数据,则对文本信息进行命名实体识别,并提取有用信息;对获取到的图片类型数据进行ocr识别,并将识别到的信息转化为excel数据或者文本数据。
13、更进一步优选的,对获取到的图片类型数据使用python库pp-structure对图片信息进行提取。
14、更进一步优选的,针对文本类型数据,对文本信息进行命名实体识别,具体是指,
15、基于业务理解确定待提取的实体:根据多源数据中的企业简介文本数据;确认提取的实体,所述实体包括企业人数、专利数量、核心技术和行业地位;
16、随机选择1000家企业,使用docanno平台进行数据标注,标注企业简介文本数据中的企业人数、专利数量、核心技术和行业地位;最终导出json格式的训练样本数据;
17、选择经典实体识别模型bert+crf,进行模型训练;
18、对训练完成的模型,在所有数据上进行命名实体预测,得到所有企业的企业人数、专利数量、核心技术和行业地位的命名实体预测结果。
19、更进一步优选的,所述s2步骤中,对获取得到的目标企业的历史多源数据进行数据清洗,具体是指:
20、采用基于箱型图法的异常值检测方式对目标企业的历史多源数据进行异常值检测,具体过程如下:
21、s201、对于目标企业的历史多源数据中的每个特征,计算其第一四分位数q1和第三四分位数q3;
22、s202、根据第一四分位数q1和第三四分位数q3计算四分位距iqr,iqr=q3-q1;
23、s203、定义异常值的阈值范围,采用1.5倍的iqr确定异常值的上限和下限;
24、s204、对于低于q1-1.5*iqr或高于q3+1.5*iqr的数据点,将其标记为异常值;
25、s205、对于被标记为异常值的数据点,采用95%分位数填充的方式进行数据修复,具体的,针对某个具体的特征,提取非异常值的子集,计算该子集的第95百分位数;使用第95百分位数填充所有异常值;
26、s206、针对缺失值数据采用均值填充或中位数填充。
27、本专利技术第二方面提供了一种科技企业画像评价系统,该系统包括
28、数据获取模块,用于获取目标企业的多源数据,并按照时间维度提取得到目标企业的历史多源数据;
29、数据处理模块,用于对获取到的目标企业的历史多源数据进行数据梳理及数据清洗;
30、样本构建模块,用于对数据处理模块处理后的目标企业的历史多源数据,根据预测目标标签,构建训练样本集;
31、特征工程模块,用于对样本构建模块中构建的训练样本集中的文本类型数据,进行关键字提取,针对提取到的关键字进行标签编码,对于训练样本集中的类别型数据进行独热编码;对于训练样本集中的数据型数据,进行一阶差分与二阶差分,得到其差值本文档来自技高网...
【技术保护点】
1.一种科技企业画像评价方法,其特征在于,该方法包括以下步骤:
2.如权利要求1所述的一种科技企业画像评价方法,其特征在于:针对所有目标标签,按照上述S3至S5步骤分别建立对应的目标标签画像模型,建立得到目标企业画像标签库。
3.如权利要求1或2所述的一种科技企业画像评价方法,其特征在于:所述历史多源数据包括企业经营信息、知识产权信息、工商信息、人员信息、申报项目信息、技术合同登记信息和贷款申请信息。
4.如权利要求1或2所述的一种科技企业画像评价方法,其特征在于:S1步骤中,获取目标企业的多源数据时,若获取到图片类型数据,则将图片数据转化为结构化数据,并进行信息提取;若获取到文本类数据,则对文本信息进行命名实体识别,并提取有用信息;对获取到的图片类型数据进行OCR识别,并将识别到的信息转化为excel数据或者文本数据。
5.如权利要求4所述的一种科技企业画像评价方法,其特征在于:对获取到的图片类型数据使用python库PP-structure对图片信息进行提取。
6.如权利要求4所述的一种科技企业画像评价方法,其特征在
7.如权利要求1或2所述的一种科技企业画像评价方法,其特征在于:所述S2步骤中,对获取得到的目标企业的历史多源数据进行数据清洗,具体是指:
8.一种科技企业画像评价系统,其特征在于,该系统包括:
9.一种计算机设备,其特征在于:包括处理器、输入设备、输出设备和存储器,处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任意一项所述的一种科技企业画像评价方法中的步骤。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-7任意一项的所述的一种科技企业画像评价方法中的步骤。
...【技术特征摘要】
1.一种科技企业画像评价方法,其特征在于,该方法包括以下步骤:
2.如权利要求1所述的一种科技企业画像评价方法,其特征在于:针对所有目标标签,按照上述s3至s5步骤分别建立对应的目标标签画像模型,建立得到目标企业画像标签库。
3.如权利要求1或2所述的一种科技企业画像评价方法,其特征在于:所述历史多源数据包括企业经营信息、知识产权信息、工商信息、人员信息、申报项目信息、技术合同登记信息和贷款申请信息。
4.如权利要求1或2所述的一种科技企业画像评价方法,其特征在于:s1步骤中,获取目标企业的多源数据时,若获取到图片类型数据,则将图片数据转化为结构化数据,并进行信息提取;若获取到文本类数据,则对文本信息进行命名实体识别,并提取有用信息;对获取到的图片类型数据进行ocr识别,并将识别到的信息转化为excel数据或者文本数据。
5.如权利要求4所述的一种科技企业画像评价方法,其特征在于:对获取到的图片类型数据使用python库pp-stru...
【专利技术属性】
技术研发人员:唐丽,张弛,马翊,罗熙,田亚男,陈洋洋,徐希潆,黄山石,
申请(专利权)人:成都生产力促进中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。