基于AI的科创数据挖掘方法及系统技术方案

技术编号：41899193 阅读：23 留言：0更新日期：2024-07-05 14:06

本发明专利技术提供了一种基于AI的科创数据挖掘方法及系统，该系统通过采集端采集各个预定区域的原始数据，并引用一个预定键值来表示原始数据的生效时间，之后对数据作粗分类并生成数据矩阵存入共享内存；云服务器集群提取关键词汇，并对数据矩阵中的向量作细分类得到多个簇的数据向量；查询端生成查询请求；云服务器集群查询符合查询请求的数据向量，提取主要内容和生效时间给查询端，查询端过滤后将信息显示给查询者。本发明专利技术通过数据矩阵汇总所有数据，且云服务器集群对所有数据做了关联度筛选和细分类可以提高查询者的查询效率的同时保留重要的科创政策数据和企业数据内容，后续查询过程无需输入过多合作企业的信息即可精确定位到所需信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于科创服务数据，具体涉及一种基于ai的科创数据挖掘方法及系统。

技术介绍

1、创新是引领发展的第一动力，是推动高质量发展、建设现代化经济体系的战略支撑。科创政策是国家为创新项目、创新服务甚至创新策略提供的强有力的支持手段，科研单位、企业或个人满足一定要求可以通过申报以寻求国家政策扶持，较为准确的科创政策信息可以为申报者提供便利，节省时间。

2、现有技术的专利文献1（cn115146186a）公开了一种基于数据交互共享的科创政策自动化匹配方法和系统，通过汇总自科创政策数据云端的科创政策数据，查询者输入企业相关信息、企业关键词，进行匹配式搜索得到查询的政策数据。然而各地科创政策因地域、经济原因存在一定区别，这种匹配方案如果想要达到较为准确的效果，前期汇总的数据庞大，查询过程冗长不利于快速反馈结果，并且需要人员一一甄别，耗时耗力。

3、现有技术的专利文件2（cn115358573a）公开了一种基于大数据的服务企业科创的方法及系统，通过将企业的实际情况与辖区内的技术资源进行联动，并根据联动的信息，对政策进行匹配，从而切实的帮扶企业在政策下完成技术革新和发展壮大。该方案侧重于企业和企业上下游合作单位的联动实现精准匹配，对于前期的准备工作要求太多，企业需要尽可能输入较多自身单位和合作单位的信息，甚至产业链上的信息才能实现准备匹配，不利于快速研究申报项目和申报政策。

技术实现思路

1、为了解决现有技术中存在的上述问题，本专利技术提供了一种基于ai的科创数据挖掘

2、第一方面，本专利技术提供了一种基于ai的科创数据挖掘系统包括：采集端、云服务器集群和查询端；

3、所述采集端，用于采集各个预定区域公开的科创政策数据以及企业数据，对所述科创政策数据以及所述企业数据按照申报条件作初步分类并将初步分类结果打上对应预定区域的标签，以使标签与引入的预定键值形成数据矩阵，向所述数据矩阵内填充所述申报条件，其中所述预定键值表示所述科创政策数据和企业数据的生效时间；将所述科创政策数据、企业数据以及所述数据矩阵按照来自的预定区域存入对应云服务器集群的共享内存中；

4、所述云服务器集群，用于从所述共享内存中解析出所述科创政策数据、企业数据以及所述数据矩阵；对科创政策数据作分句、分词处理以提取出与所述申报条件相关的关键词汇；并根据所述关键词汇确定不同预定区域的科创政策数据之间的第一关联度以及确认同一预定区域的科创政策数据与企业数据的第二关联度；如果所述第一关联度达到关联条件则合并两个预定区域在所述数据矩阵中的数据向量，得到多个簇的数据向量、每个簇对应的科创政策数据以及第二关联度达到关联阈值的科创政策数据关联的企业数据，并按照对应簇存储在所述共享内存上；所述多个簇存在至少一个中心簇；

5、所述查询端，用于接收查询信息并生成查询请求，向所述云服务器集群发送查询请求；

6、所述云服务器集群，用于按照所述查询请求依次从中心簇开始向外扩散查询数据向量，直至找到符合查询请求的数据向量，并确认该数据向量对应的科创政策数据和企业数据；提炼所述科创政策数据的主要内容、企业数据的主要内容以及对应的生效时间，并将所述主要内容和生效时间反馈至所述查询端；

7、所述查询端，用于按照所述生效时间对所述主要内容过滤，并将过滤后的主要内容、预定区域的标签和申报条件显示给查询者。

8、第二方面，本专利技术提供了一种基于ai的科创数据挖掘方法，应用于第一方面所述的基于ai的科创数据挖掘系统上，完成科创政策数据和企业数据的挖掘和查询。

9、有益效果

10、本专利技术提供了一种基于ai的科创数据挖掘方法及系统，通过采集端采集各个预定区域的原始数据，并引用一个预定键值来表示原始数据的生效时间，之后对数据作粗分类并生成数据矩阵存入共享内存；云服务器集群提取关键词汇，并对数据矩阵中的向量作细分类得到多个簇的数据向量；查询端生成查询请求；云服务器集群，用于按照所述查询请求查询符合查询请求的数据向量，提取主要内容和生效时间给查询端；查询端对主要内容过滤，并将过滤后的主要内容、预定区域的标签和申报条件显示给查询者。本专利技术通过数据矩阵汇总所有数据，且云服务器集群对所有数据做了关联度筛选和细分类可以提高查询者的查询效率的同时保留重要的科创政策数据和企业数据内容，后续查询过程无需输入过多合作企业的信息即可精确定位到所需信息。

本文档来自技高网...

【技术保护点】

1.一种基于AI的科创数据挖掘系统，其特征在于，包括：采集端、云服务器集群和查询端；

2.根据权利要求1所述的基于AI的科创数据挖掘系统，其特征在于，所述采集端，进一步用于利用爬虫技术从各个预定区域的科创政策信息网站爬取公开的科创政策文件加入本地数据库中；判断所述科创政策信息网站设置有反爬虫机制，则爬取所述科创政策文件不成功；启动批量下载工具以不分文件类别的方式从所述科创政策信息网站下载公开文件，提取所述公开文件的主题，并确认所述主题中是否包含科创词汇，如果是则将所述公开文件汇总至本地数据库中；如果不包含，则进一步确认所述公开文件的内容是否与科创政策相关，如果相关则将所述公开文件汇总至本地数据库中，如果不相关，则对所述公开文件作公开时间的第一次标注和主题的第二次标注；将所述本地数据库中的文件作为科创政策数据。

3.根据权利要求1所述的基于AI的科创数据挖掘系统，其特征在于，所述科创政策数据和所述企业数据均包括一个键值存储，所述键值存储用于存储不同的数据版本值，所述数据版本值为一个随机数，所述随机数表示所述科创政策数据的具体版本，预定键值用于标注所述科创政策

4.根据权利要求1所述的基于AI的科创数据挖掘系统，其特征在于，所述对所述科创政策数据以及所述企业数据按照申报条件作初步分类并将初步分类结果打上对应预定区域的标签，以使标签与所述预定键值形成数据矩阵，向所述数据矩阵内填充所述申报条件包括：

5.根据权利要求4所述的基于AI的科创数据挖掘系统，其特征在于，所述共享内存中包含多个缓冲队列，每个缓冲队列被分时复用以存储所述数据矩阵；在分时复用时对所述数据矩阵按照所述申报条件中的限制作拆分，并将拆分结果压缩成数据包，在压缩过程中在数据包头部字段加入预定区域和数据对应关系；向所述缓冲队列存储数据包时，如果同一预定区域的数据包大小超过待存储的缓冲队列的大小，则以近邻原则选择缓冲队列存储数据包的剩余数据。

6.根据权利要求4所述的基于AI的科创数据挖掘系统，其特征在于，所述将所述科创政策数据、企业数据以及所述数据矩阵按照来自的预定区域存入对应云服务器集群的共享内存中包括：

7.根据权利要求1所述的基于AI的科创数据挖掘系统，其特征在于，所述根据所述关键词汇确定不同预定区域的科创政策数据之间的第一关联度以及确认同一预定区域的科创政策数据与企业数据的第二关联度包括：

8.根据权利要求1所述的基于AI的科创数据挖掘系统，其特征在于，所述如果所述第一关联度达到关联条件则合并两个预定区域在所述数据矩阵中的数据向量，得到多个簇的数据向量、每个簇对应的科创政策数据以及第二关联度达到关联阈值的科创政策数据关联的企业数据包括：

9.根据权利要求1所述的基于AI的科创数据挖掘系统，其特征在于，所述云服务器集群包括多个云服务器；

10.一种基于AI的科创数据挖掘方法，其特征在于，应用于权利要求1至9任一项所述的基于AI的科创数据挖掘系统上，完成科创政策数据和企业数据的挖掘和查询。

...

【技术特征摘要】

1.一种基于ai的科创数据挖掘系统，其特征在于，包括：采集端、云服务器集群和查询端；

2.根据权利要求1所述的基于ai的科创数据挖掘系统，其特征在于，所述采集端，进一步用于利用爬虫技术从各个预定区域的科创政策信息网站爬取公开的科创政策文件加入本地数据库中；判断所述科创政策信息网站设置有反爬虫机制，则爬取所述科创政策文件不成功；启动批量下载工具以不分文件类别的方式从所述科创政策信息网站下载公开文件，提取所述公开文件的主题，并确认所述主题中是否包含科创词汇，如果是则将所述公开文件汇总至本地数据库中；如果不包含，则进一步确认所述公开文件的内容是否与科创政策相关，如果相关则将所述公开文件汇总至本地数据库中，如果不相关，则对所述公开文件作公开时间的第一次标注和主题的第二次标注；将所述本地数据库中的文件作为科创政策数据。

3.根据权利要求1所述的基于ai的科创数据挖掘系统，其特征在于，所述科创政策数据和所述企业数据均包括一个键值存储，所述键值存储用于存储不同的数据版本值，所述数据版本值为一个随机数，所述随机数表示所述科创政策数据的具体版本，预定键值用于标注所述科创政策数据的生效时间和所述企业数据的生效时间，所述企业数据的生效时间为企业按照所述科创政策数据请求申报被批准公开的时间。

4.根据权利要求1所述的基于ai的科创数据挖掘系统，其特征在于，所述对所述科创政策数据以及所述企业数据按照申报条件作初步分类并将初步分类结果打上对应预定区域的标签，以使标签与所述预定键值形成数据矩阵，向所述数据矩阵内填充所述申报条件包...

【专利技术属性】
技术研发人员：章培军，吴文静，宋毅鹏，王震，程茂盛，
申请(专利权)人：西京学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人