基于智能语义理解的可视化建模方法技术

技术编号:35515094 阅读:45 留言:0更新日期:2022-11-09 14:31
本发明专利技术涉及基于智能语义理解的可视化建模方法,包括步骤:用户输入建模任务目标,进行分词处理,得到分词结果;用户输入源数据集,获取源数据集的特征;基于分词结果确定测试模型范围;从源数据集中选择m条测试数据对测试模型范围进行测试,得到模型测试结果;从预置算法模型中选择n个预置算法模型作为备选方案,并确定对应的n组算法模型超参;将n个预置算法模型及其对应的n组算法模型超参,和源数据集的特征进行神经网络学习;学习后根据模型评估指标对n个预置算法模型进行排序后并推荐。本发明专利技术提供以智能推荐的形式,针对用户给出的建模任务目标,推荐算法模型的形式,提供给用户可以直接解决其任务目标的多种模型方案。可以直接解决其任务目标的多种模型方案。可以直接解决其任务目标的多种模型方案。

【技术实现步骤摘要】
基于智能语义理解的可视化建模方法


[0001]本专利技术涉及智能推荐、人工可视化建模
,特别涉及一种基于智能语义理解的可视化建模方法。

技术介绍

[0002]随着云时代的到来,大数据也吸引了越来越多的关注,大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。为了探求企业海量数据更深层次的价值,机器学习模型被应用于各个行业,各种智能系统。
[0003]目前,机器学习对用户仍有很高理论及编程技术门槛,越来越多的可视化建模平台都视图降低机器学习算法、模型使用的门槛。如拖拉拽式的可视化建模方法,虽然降低了用户的编程技术门槛,但是依然对用户有很强的理论要求,其原因在于:

可视化建模平台,以算法和模型功能的最小粒度,将算法、模型封装成一个个可以被直接使用的组件,无形之中要求用户必须掌握机器学习理论知识,了解数据的处理流程,包括对不同类型的数据需要进行不同的数据预处理、数据清洗;要求用户清楚特征处理工程知识,还要求用户明白各种神经网络的优劣势;

建立机器学习模型是服务于特定的应用场景,实现特定目标,组件式的可视化建模方法看似降低了用户的使用门槛,却因为在拖拉拽后,数据处理流、组件执行流的环环相扣,导致通过可视化建立的模型调试周期变长;

神经网络的种类及变体数量非常多,且神经网络的组合不同、网络参数不同,都会对最优模型的生成有直接影响,即使有可视化的建模方法,也需要大量实验,才能验证是否满足建模的目标。

技术实现思路

[0004]本专利技术的目的在于提供以智能推荐的形式,针对用户给出的建模任务目标,推荐算法模型的形式,提供给用户可以直接解决其任务目标的多种模型方案,使得用户可以针对设定的任务目标进行建模,进而对大数据进行分析梳理,最终得到任务结果,比如基于大数据的智能语义分析处理获得客户对商品的兴趣,从而店家可以根据兴趣推荐商品销售,故提供一种基于智能语义理解的可视化建模方法。
[0005]为了实现上述专利技术目的,本专利技术实施例提供了以下技术方案:基于智能语义理解的可视化建模方法,包括以下步骤:步骤S1,用户输入建模任务目标,对建模任务目标进行分词处理,得到分词结果;用户输入源数据集,并获取源数据集的特征;步骤S2,基于分词结果确定测试模型范围;从源数据集中选择m条测试数据对测试模型范围进行测试,得到模型测试结果,所述模型测试结果中包括N个预置算法模型;步骤S3,从N个预置算法模型中选择n个预置算法模型作为备选方案,并确定对应的n组算法模型超参,1<n≤N;步骤S4,将n个预置算法模型及其对应的n组算法模型超参,和源数据集的特征进
行神经网络学习;学习后根据模型评估指标对n个预置算法模型进行排序后并推荐。
[0006]更进一步地,所述基于分词结果确定测试模型范围的步骤,包括:基于分词结果,对算法模型库中的模型标签进行相似度计算,从而确定测试模型范围;所述算法模型库包括模型ID、模型标签、模型名称、模型描述字段,所述模型标签包括分类、聚类、预测、回归。
[0007]更进一步地,所述从源数据集中选择m条测试数据对测试模型范围进行测试,得到模型测试结果的步骤,包括:基于源数据集的特征,从模型超参库中获取测试模型范围中各模型ID所对应的超参列表;从源数据集中选择m条测试数据对测试模型范围进行测试,1<m<0.1M,M为源数据集的总条数,得到模型测试结果;根据模型F1值的大小对模型测试结果中得到的各预置算法模型进行排序,可视化推荐前N个预置算法模型,N>1。
[0008]更进一步地,所述确定对应的n组算法模型超参的步骤,包括:根据测试模型范围的模型ID在模型超参库中筛选出对应的n组算法模型超参,每个备选方案的算法模型超参设置有预置初始值,用户通过可视化界面方式,对预置初始值进行修改重置。
[0009]更进一步地,所述学习后根据模型评估指标对n个预置算法模型进行排序后并推荐的步骤,包括:利用可视化图标的展现形式,将n个预置算法模型依据不同的评估指标进行排序,所述评估指标包括准确率、召回率、F1值;用户从n个预置算法模型选择一个最优方案,或使用推荐的第1个方案作为本次建模任务目标的最终解决方案。
[0010]更进一步地,所述用户输入源数据集,并获取源数据集的特征的步骤,包括:根据输入的源数据集,计算统计每个特征的值分布、值缺失率,根据设定阈值x来确定特征选择结果,0.5<x<1。
[0011]更进一步地,所述将n个预置算法模型及其对应的n组算法模型超参,和源数据集的特征进行神经网络学习的步骤,包括:将本次建模任务目标的n个预置算法模型及其对应的n组算法模型超参,和源数据集的特征,进行批量迭代学习,利用BP算法进行神经网络权重优化;神经网络权重优化的损失函数为:其中,M表示源数据集的总条数,i表示第i条测试数据,j表示第j条测试数据,x
i
表示第i条测试数据中的任一特征;表示第i条测试数据和第j条测试数据在余弦空间的特征分度;n表示预置算法模型的数量,k表示第k个预置算法模型;表示第k个预置算法模型的权重;表示第i条测试数据中特征的权重偏置;表示第i条测试数据的权重;表示第i条测试数据中的总特征,表示第j条测试数据中的总特征;表示第k个预置算法模型的算法模型超参。
[0012]与现有技术相比,本专利技术的有益效果:(1)本专利技术首先利用智能语义理解,以建模任务目标为导向,保障模型质量。其次
对结构化数据中的数据,可以通过将建模任务目标字段值与其他特征值进行关联度分析,过滤关联性弱的特征,也可以通过计算特征字段值的缺失率,来过滤特征字段缺失较高的特征,从而起到特征自动选择,此过程无需人工干预,减轻了用户的工作量,也进一步提供了模型的质量。最后因为使用预置算法模型具有良好的数据流规范和标准,所以降低了建模任务流出错的可能性,提高了建模效率。
[0013](2)本专利技术在得到最优模型的过程中,用户只需要通过可视化界面,提交建模任务的目标,进行源数据集输入、算法模型的参数配置、模型结果存储位置的设置,就能够完成建模。
附图说明
[0014]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0015]图1为本专利技术流程图。
具体实施方式
[0016]下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于智能语义理解的可视化建模方法,其特征在于:包括以下步骤:步骤S1,用户输入建模任务目标,对建模任务目标进行分词处理,得到分词结果;用户输入源数据集,并获取源数据集的特征;步骤S2,基于分词结果确定测试模型范围;从源数据集中选择m条测试数据对测试模型范围进行测试,得到模型测试结果,所述模型测试结果中包括N个预置算法模型;步骤S3,从N个预置算法模型中选择n个预置算法模型作为备选方案,并确定对应的n组算法模型超参,1<n≤N;步骤S4,将n个预置算法模型及其对应的n组算法模型超参,和源数据集的特征进行神经网络学习;学习后根据模型评估指标对n个预置算法模型进行排序后并推荐。2.根据权利要求1所述的基于智能语义理解的可视化建模方法,其特征在于:所述基于分词结果确定测试模型范围的步骤,包括:基于分词结果,对算法模型库中的模型标签进行相似度计算,从而确定测试模型范围;所述算法模型库包括模型ID、模型标签、模型名称、模型描述字段,所述模型标签包括分类、聚类、预测、回归。3.根据权利要求1所述的基于智能语义理解的可视化建模方法,其特征在于:所述从源数据集中选择m条测试数据对测试模型范围进行测试,得到模型测试结果的步骤,包括:基于源数据集的特征,从模型超参库中获取测试模型范围中各模型ID所对应的超参列表;从源数据集中选择m...

【专利技术属性】
技术研发人员:姚苗詹永川沈杰谭亚军李硕赵磊杨李伟
申请(专利权)人:成都数联铭品科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1