一种提问式的分析节点生成方法、系统及存储介质技术方案

技术编号:27146473 阅读:16 留言:0更新日期:2021-01-27 22:00
本发明专利技术涉及数据分析技术,为提问式的分析节点生成方法、系统及存储介质,其方法包括:对所输入自然语言问题进行预处理、分词处理;对预处理后的输入自然语言问题对应的文本数据进行特征表示、特征提取,转化为数值形式;将自然语言问题中的关键信息抽取出来,对关键信息进行类型识别;构建意图识别模型,判断所输入自然语言问题的分析意图;结合特征提取、类型识别、意图识别的结果,得到自然语言问题中所需要分析的数据源、分析维度、分析指标、分析任务以及其他附加数据分析信息,并自动生成分析节点。本发明专利技术使得用户不需要了解复杂的数据结构以及分析方法就可以完成数据分析探索工作,从而快速探索数据发现业务中的问题。从而快速探索数据发现业务中的问题。从而快速探索数据发现业务中的问题。

【技术实现步骤摘要】
一种提问式的分析节点生成方法、系统及存储介质


[0001]本专利技术涉及数据分析技术,尤其涉及一种提问式的分析节点生成方法、系统及存储介质。

技术介绍

[0002]现有的提问式数据分析系统,一般是用户提出简单的自然语言问题,系统经过解析后自动查询数据库,得到结果并呈现给用户一个可视化的答案。这仅仅是针对一些特定的比较简单的问题查询,例如用户提出“某地区这个月的用电量是多少”,现有的提问式数据分析系统会将数据库中当月的用电量数据聚合成一个汇总值,并返回给用户一个可视化的视图或者一个具体的数值。
[0003]当用户的提问比较复杂时,如“上半年广州市不同用户类型的用电趋势如何?”,上述现有的提问式数据分析系统,由于仅有数据查询功能,用户所提问题对应的结果并不直接存在于数据库中,因而将不能满足用户的复杂提问式分析需求。
[0004]此外,若用户的问题与数据分析系统共享库中的分析路径没有关系,则从提问式数据分析系统上,用户也得不到有效的分析路径推荐反馈。因此,有必要提出提问式的分析节点生成方法、系统等,用于解决上述分析路径推荐式的数据分析系统所存在的问题。

技术实现思路

[0005]本专利技术提供提问式的分析节点生成方法、系统及存储介质,可以基于用户提出的自然语言问题进行解析,自动抽取数据,选择分析功能并生成分析节点,使得用户不需要了解复杂的数据结构以及分析方法就可以完成数据分析探索工作,从而快速探索数据发现业务中的问题。
[0006]根据本专利技术的提问式的分析节点生成方法,包括以下步骤:
[0007]S1、对所输入自然语言问题进行预处理、分词处理,得到分词处理后的词语;
[0008]S2、对预处理后的输入自然语言问题对应的文本数据进行特征表示、特征提取,转化为数值形式;
[0009]S3、将所输入自然语言问题中的关键信息抽取出来,对关键信息进行类型识别,得到实体类别信息;
[0010]S4、构建意图识别模型,判断所输入自然语言问题的分析意图,完成意图识别;
[0011]S5、结合上述步骤S2-S4中特征提取、类型识别、意图识别的结果,得到自然语言问题中所需要分析的数据源、分析维度、分析指标、分析任务以及其他附加数据分析信息,并自动生成分析节点。
[0012]在优选的实施例中,步骤S5包括:
[0013]S51、分析节点任务数据接口制定,针对每个分析节点任务制定标准的数据接口;
[0014]S52、数据接口信息生成,基于实体类别信息,结合元数据信息,匹配索引得到数据源信息、指标信息、维度信息以及其他附加数据分析信息;基于分析意图确定分析节点任
务;将数据源信息、指标信息、维度信息以及其他附加数据分析信息经过处理后,传递给对应的分析节点任务,同时调用该分析节点任务完成分析结果的生成和展示。
[0015]根据本专利技术的提问式的分析节点生成系统,包括:
[0016]预处理模块,用于对所输入自然语言问题进行预处理、分词处理,得到分词处理后的词语;
[0017]特征提取模块,用于对预处理后的输入自然语言问题对应的文本数据进行特征表示、特征提取,转化为数值形式;
[0018]信息抽取模块,用于将所输入自然语言问题中的关键信息抽取出来,对关键信息进行类型识别,得到实体类别信息;
[0019]意图识别模块,用于构建意图识别模型,判断所输入自然语言问题的分析意图,完成意图识别;
[0020]分析节点生成模块,用于结合特征提取模块、信息抽取模块、意图识别模块的处理结果,得到自然语言问题中所需要分析的数据源、分析维度、分析指标、分析任务以及其他附加数据分析信息,并自动生成分析节点。
[0021]本专利技术的存储介质,其上存储有计算机指令,当计算机指令被处理器执行时,实现本专利技术分析节点生成方法的各步骤。
[0022]与现有技术相比,本专利技术的显著效果在于:根据所输入的自然语言问题,可自动识别出用户进行数据分析的意图,自动匹配和索引源数据,生成过滤条件,确定分析维度和指标,自动生成分析节点,并形成分析路径,降低了用户进行数据分析的门槛。
附图说明
[0023]图1是本专利技术分析思路可视化方法的实现流程图;
[0024]图2是LSTM-CRF模型的结构示意图;
[0025]图3是分析节点生成的流程框图。
具体实施方式
[0026]为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合实施例及附图,对本专利技术的技术方案进行清楚、完整的描述。显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0027]参阅图1,本实施例中提问式的分析节点生成方法,具体包括以下步骤:
[0028]S1、对所输入自然语言问题进行预处理、分词处理,得到分词处理后的词语。
[0029]对用户输入的自然语言问题进行统一的规范化预处理,对所输入自然语言问题对应的文本数据进行全半角转换、大小写转换、特殊符号清洗去除等;此外,由于中文的特殊性,词与词之间没有明显的分隔符,甚至中文与英文混合文本中也不一定会有分隔符区分,因此还需进行分词处理,将整句文本串分割为一个个独立的词。
[0030]本步骤S1具体包括:加载所输入自然语言问题对应的文本数据到内存便于处理;将输入的自然语言问题对应的文本数据统一转换为小写字母、半角、简体形式,并使用jieba分词工具进行分词处理;对分词处理后的词语列表进行判断,如果存在停用词库则剔
除相应的停用词,否则保留。
[0031]S2、特征提取
[0032]对预处理后的输入自然语言问题对应的文本数据进行特征表示、特征提取。机器学习模型是无法直接使用自然语言的,需要将其以数值形式表现,通过特征表示、抽取就可以达到这一目的。本实施例对预处理后的文本使用TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)、转换模型Word2Vec、文本特征提取函数CountVectorizer等进行特征表示、特征提取,转化为数值形式。
[0033]本步骤进行文本特征表示时,将文本数据中的词语转换为词频矩阵,统计每个词语的TF-IDF权值,获得词语在对应文本数据中的权重,这是一个折中的过程;从而选取能表征文本语义的部分特征,不仅能更好的表达文本还能降低算法复杂度;
[0034]在本实施例中,TF-IDF是TF和IDF的结合,计算公式如下:
[0035][0036]其中,T F
ij
表示文档集中第i个特征项在文档j中出现的次数。需要说明的是:TF为词频,指一个词在文档中出现的次数,是一个重要的评价指数,因为它不仅考虑了特征词是否出现,还考虑了出现的次数。
[0037]IDF为逆文档频率,其考虑的是若一个词在每篇文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种提问式的分析节点生成方法,其特征在于,包括以下步骤:S1、对所输入自然语言问题进行预处理、分词处理,得到分词处理后的词语;S2、对预处理后的输入自然语言问题对应的文本数据进行特征表示、特征提取,转化为数值形式;S3、将所输入自然语言问题中的关键信息抽取出来,对关键信息进行类型识别,得到实体类别信息;S4、构建意图识别模型,判断所输入自然语言问题的分析意图,完成意图识别;S5、结合上述步骤S2-S4中特征提取、类型识别、意图识别的结果,得到自然语言问题中所需要分析的数据源、分析维度、分析指标、分析任务以及其他附加数据分析信息,并自动生成分析节点。2.根据权利要求1所述的分析节点生成方法,其特征在于,步骤S5包括:S51、分析节点任务数据接口制定,针对每个分析节点任务制定标准的数据接口;S52、数据接口信息生成,基于实体类别信息,结合元数据信息,匹配索引得到数据源信息、指标信息、维度信息以及其他附加数据分析信息;基于分析意图确定分析节点任务;将数据源信息、指标信息、维度信息以及其他附加数据分析信息经过处理后,传递给对应的分析节点任务,同时调用该分析节点任务完成分析结果的生成和展示。3.根据权利要求2所述的分析节点生成方法,其特征在于,其他附加数据分析信包括时间信息、地区信息。4.根据权利要求2所述的分析节点生成方法,其特征在于,步骤S51中,趋势分析节点任务输入数据包括数据源名称、分析指标、时间范围及筛选条件;分布分析节点任务输入数据包括数据源名称、分析指标、分析维度及筛选条件。5.根据权利要求1所述的分析节点生成方法,其特征在于,步骤S4包括:S41、首先需要对训练数据进行标注,对每一个自然语言问题进行意图类型的标注;S42、将分类模型训练、构建成意图识别模型,利用意图识别模型对所输入自然语言问题对应的文本数据进行意图识别,对每个意图类型进行概率预测,选取概率最大的作为所输入自然语言问题的意图类型。6.根据权利要求1所述的分析节点生成方法,其特征在于,步骤S3包括:S31、对训练数据中的文本数据进行序列标注,得到文本数据中每个词元素所属片段的实...

【专利技术属性】
技术研发人员:姜磊钟颖欣辛岩杨钊
申请(专利权)人:佰聆数据股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1