一种基于关键词提取算法的数据治理方法技术

技术编号:37289257 阅读:18 留言:0更新日期:2023-04-21 00:01
一种基于关键词提取算法的数据治理方法,所述方法包括:步骤1,通过终端设备获取输入的语句或文本;步骤2,通过治理平台将所述语句或文本解析转换成对应的数据;步骤3,基于转换成后的数据,进行对应数据的治理工作。本发明专利技术在数据进场后,可迅速进行重点信息提取清洗,支撑公安系统相应的业务。降低在终端设备输入的专业性和局限性,对操作人员更加友好,并在流程中的每一步,操作人员都可以检查中间输出结果是否偏离计划方向,及时调整。及时调整。及时调整。

【技术实现步骤摘要】
一种基于关键词提取算法的数据治理方法


[0001]本专利技术涉及数据治理领域,具体涉及一种基于关键词提取算法的数据治理方法。

技术介绍

[0002]在现有数据治理工作中,由于数据资源的来源复杂和结构迥异,导致数据治理工作人员需要耗费大量的时间精力规整原始数据和元数据;同时,公安系统的特殊性和涉密性,让互联网环境下的常规技术无法在其中发挥作用。如何让多源异构数据规整,快速提取关键信息并入数据仓库,并向现代化公安系统提供定向有效数据,辅助支撑公安业务流转,这是笔者认为促进行业发展的重要一点。

技术实现思路

[0003]鉴于现有技术中存在的技术缺陷和技术弊端,本专利技术实施例提供克服上述问题或者至少部分地解决上述问题的一种基于关键词提取算法的数据治理方法,具体方案如下:
[0004]一种基于关键词提取算法的数据治理方法,所述方法包括:
[0005]步骤1,通过终端设备获取输入的语句或文本;
[0006]步骤2,通过治理平台将所述语句或文本解析转换成对应的数据;
[0007]步骤3,基于转换成后的数据,进行对应数据的治理工作。
[0008]进一步地,步骤2具体包括
[0009]获取输入的语句或文本后,通过LDA主题模型关键词提取算法提取语句或文本中的关键词,并按关键词的词性进行分类。
[0010]进一步地,所述通过LDA主题模型关键词提取算法提取语句或文本中的关键词具体包括:
[0011]步骤2.1:对语句或文本进行词性和停用词的处理;
[0012]步骤2.2:基于处理后的语句或文本,构造词典,并构造LDA主题模型;
[0013]步骤2.3:通过LDA主题模型输出主题的词及词的权重。
[0014]进一步地,所述方法还包括:
[0015]基于提取的关键词名词在数据仓库中自动生成新表A,在数据仓库中对新表A结构和字段进行检查,并判断是否是否可用。
[0016]进一步地,所述方法还包括:
[0017]若新表A不可用,则表示缺少字段,并添加缺少字段。
[0018]进一步地,所述方法还包括:
[0019]在数据仓库中对新表A各字段血缘进行标注,以便检查和备用。
[0020]进一步地,所述方法还包括:
[0021]在数据仓库中对关键字名词进行全局搜索,包括数据表名和数据表字段,将符合关键词的数据提取出,根据语句中关键词或新表A中字段提取对应的主键字段和时间字段进行去重后,裁剪指定字段数据汇入新表A。
[0022]进一步地,所述方法还包括,通过对关键词动词进行解析,解析出对应的指令。例如:同比、环比、以...分类等等。
[0023]进一步地,所述方法还包括:
[0024]对所述指令进行检查,判断指令是否可用。
[0025]进一步地,所述方法还包括:
[0026]将指令带入新表A中,进行对应的数据治理工作。
[0027]本专利技术具有以下有益效果:
[0028]与现有技术相比,本专利技术在数据进场后,可迅速进行重点信息提取清洗,支撑公安系统相应的业务。降低在终端设备输入的专业性和局限性,对操作人员更加友好,并在流程中的每一步,操作人员都可以检查中间输出结果是否偏离计划方向,及时调整。
附图说明
[0029]图1为本专利技术实施例提供的一种基于关键词提取算法的数据治理方法流程图。
具体实施方式
[0030]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0031]如图1所示,作为本专利技术的第一实施例,提供一种基于关键词提取算法的数据治理方法,所述方法包括:
[0032]步骤1,通过终端设备获取输入的语句或文本;
[0033]其中,终端设备包括电脑、警务通、警务平板等等,此类设备均可提供语句或文本输入模块;
[0034]步骤2,通过治理平台将所述语句或文本解析转换成对应的数据;
[0035]步骤3,基于转换成后的数据,进行对应的数据治理工作。
[0036]本专利技术在数据进场后,可迅速进行重点信息提取清洗,支撑公安系统相应的业务。降低在终端设备输入的专业性和局限性,对操作人员更加友好,并在流程中的每一步,操作人员都可以检查中间输出结果是否偏离计划方向,及时调整。
[0037]优选地,步骤2具体包括
[0038]获取输入的语句或文本后,通过LDA主题模型关键词提取算法提取语句或文本中的关键词,并按关键词的词性进行关键词分类。
[0039]优选地,所述方法还包括:
[0040]基于提取的关键词名词在数据仓库中自动生成新表A,在数据仓库中对新表A结构和字段进行检查,并判断是否是否可用,若新表A不可用,则表示缺少字段,并添加缺少字段。
[0041]优选地,所述方法还包括:
[0042]在数据仓库中对新表A各字段血缘进行标注,以便检查和备用。
[0043]优选地,所述方法还包括:
[0044]在数据仓库中对关键字名词进行全局搜索,包括数据表名和数据表字段,将符合关键词的数据提取出,根据语句中关键词或新表A中字段提取对应的主键字段和时间字段进行去重后,裁剪指定字段数据汇入新表A。
[0045]优选地,所述方法还包括,通过对关键词动词进行解析,解析出对应的指令。例如:同比、环比、以...分类等等。
[0046]对所述指令进行检查,判断指令是否可用,将可用指令带入新表A中,进行对应的数据治理工作。
[0047]优选地,所述通过LDA主题模型关键词提取算法提取语句或文本中的关键词具体包括:
[0048]步骤2.1:对语句或文本进行词性和停用词的处理;
[0049]步骤2.2:基于处理后的语句或文本,构造词典,并构造LDA主题模型;
[0050]步骤2.3:通过LDA主题模型输出主题的词及词的权重。
[0051]作为本专利技术的第二实施例,所述述LDA主题模型代码包括三部分,具体如下:
[0052][0053][0054][0055][0056]以上所述仅为本专利技术的较佳实施例,并不用以限制本专利技术,凡在本专利技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于关键词提取算法的数据治理方法,其特征在于,所述方法包括:步骤1,通过终端设备获取输入的语句或文本;步骤2,通过治理平台将所述语句或文本解析转换成对应的数据;步骤3,基于转换成后的数据,进行对应数据的治理工作。2.根据权利要求1所述的基于关键词提取算法的数据治理方法,其特征在于,步骤2具体包括:获取输入的语句或文本后,通过LDA主题模型关键词提取算法提取语句或文本中的关键词,并按关键词的词性进行分类。3.根据权利要求1所述的基于关键词提取算法的数据治理方法,其特征在于,所述通过LDA主题模型关键词提取算法提取语句或文本中的关键词具体包括:步骤2.1:对语句或文本进行词性和停用词的处理;步骤2.2:基于处理后的语句或文本,构造词典,并构造LDA主题模型;步骤2.3:通过LDA主题模型输出主题的词及词的权重。4.根据权利要求2所述的基于关键词提取算法的数据治理方法,其特征在于,所述方法还包括:基于提取的关键词名词在数据仓库中自动生成新表A,在数据仓库中对新表A结构和字段进行检查,并判断是否是否可用。5.根据权利要求...

【专利技术属性】
技术研发人员:张念单承双曹宇
申请(专利权)人:武汉众智数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1