一种基于主动学习的知识抽取平台的构建方法技术

技术编号:37968845 阅读:14 留言:0更新日期:2023-06-30 09:44
本发明专利技术公开了一种基于主动学习的知识抽取平台的构建方法,知识抽取平台包括标签体系构建层、智能服务驱动层、服务能力评估层和知识能力演进层;构建方法过程为:对原始数据或标注数据引接,将数据引接到知识抽取平台中;根据知识抽取的任务以及数据源文件的特征选择或新建编辑标签体系;进行人在环路的机器标注以及模型训练发布,根据原始数据集和标签进行标注数据集构建以及服务发布;基于步骤(3)训练出来的模型进行服务化封装,将服务导出服务安装包,根据知识服务需求筛选服务进行调用。本发明专利技术基于主动学习对错例样本进行二次标注,提升抽取的准确率,解决了目前构建各类应用时所需的知识难以准备、准确率低以及利用率低下的问题。低下的问题。低下的问题。

【技术实现步骤摘要】
一种基于主动学习的知识抽取平台的构建方法


[0001]本专利技术涉及机器学习
中的知识抽取平台,尤其涉及一种基于主动学习的知识抽取平台的构建方法。

技术介绍

[0002]智能系统体系能力生成所需要的各类知识需要在应用过程中不断学习、不断演进。当前的系统能力是根据可预见的需求定制构建形成的,系统一旦定型,其能力就固化了。且目前构建各类应用时所需的知识难以准备、准确率低以及利用率低下。
[0003]为了适应未来智能化场景复杂多变的特点,系统需要具备动态演进能力,需要在应用过程中通过不断积累新的数据、学习新的知识,逐步优化各种模型,实现核心能力迭代增强。
[0004]未来的各类智能化设备交付模式也将因此而发生重大变化,从功能能力出厂前预设且固化的定型品,转变成能力动态增长的成长体,实现智能系统体系能力由“功能固化、一次交付”向“用一次、长一智”转变。因此,需要构建一套成体系的学习平台来实现智能能力的共建、共享、集优,提供数据、知识、算法、模型以及开发框架、训练环境,孵化智能AI,解决现有分散式智能研发模式存在的低水平重复建设问题。

技术实现思路

[0005]专利技术目的:为解决目前构建各类应用时所需的知识难以准备、准确率低以及利用率底下的问题,以及难以准确快速生成体系能力所需的异构知识,本专利技术提出一种基于主动学习的知识抽取平台的构建方法,通过采集用户业务操作中的反馈信息判断性能下降水平,适时启动模型再训练,选择训练算法并基于Auto

PyTorch框架自动调参,在降低开发人员技术门槛的同时,实现了知识抽取模型对于新数据的主动学习适应能力,促进智能能力得以快速、高质量的学习和生长,解决了目前构建知识抽取平台时所需的知识难以准备、准确率低以及利用率低下的问题。
[0006]技术方案:本专利技术基于主动学习的知识抽取平台的构建方法中的知识抽取平台包括标签体系构建层、智能服务驱动层、服务能力评估层和知识能力演进层;
[0007]标签体系构建层,通过对原始数据集进行统一接入以及预处理,依据原始数据的特征选择对应的实体类知识、事件类知识以及规则类知识的表征模式,构建出待标注的标签体系;
[0008]智能服务驱动层,通过智能预标注中预置的模型,将原始数据集按照标签体系构建层建立的标签体系进行预标注,通过主动学习对判断准确率低的预标注的样例提示,并进行难例标注,难例标注的结果反馈后重新进行模型训练以及智能服务的封装,迭代生成智能标注能力;
[0009]服务能力评估层,通过知识服务调用引擎按需调用知识构建智能服务驱动层中所封装的服务进行知识抽取,并进行指标的实时计算,对智能服务的能力进行全面评估;
[0010]知识能力演进层,对知识构建服务统一管理,并根据用户反馈迭代演进知识服务能力。
[0011]知识抽取平台的构建方法包括以下步骤:
[0012]步骤(1),对原始数据或者标注数据引接,通过上传或者配置数据库连接从而将数据引接到所述知识抽取平台中,并通过转换统一以utf

8格式的文本文件的形式保存;
[0013]步骤(2),根据知识抽取的任务以及数据源文件的特征选择或者新建编辑标签体系;
[0014]步骤(3),进行人在环路的机器标注以及模型训练发布,根据原始数据集和标签进行标注数据集构建以及服务发布;
[0015]步骤(4),服务封装调用与迭代演进,基于步骤(3)训练出来的模型进行服务化封装,将服务导出服务安装包,根据知识服务需求筛选服务进行调用。
[0016]步骤(2)中,根据知识抽取任务,选择文本内容的特征分析;选择标签体系的匹配度最大者为标注的标签体系,若匹配度达不到阈值,则人工新建编辑标签体系。
[0017]步骤(3)包括以下步骤:
[0018]步骤(3.1),通过三种预标注方式进行标注数据集的构建:首先通过逻辑规则的标注,进行隐式标注;然后以远程监督的方式,基于已有的知识图谱辅助进行实体关系的抽取;最后根据已有的智能预标注服务进行预标注,共同生成标注数据集;
[0019]步骤(3.2),对已有的标注数据进行模型训练,训练生成的二进制文件利用容器云进行智能服务的新建与发布,发布的服务进入预标注服务列表,服务调用的难例数据进入主动学习模块,进行人工标注,迭代生成新的标注数据和模型。
[0020]步骤(4)中,在调用过程中搜集指标函数进行实时监控,若指标函数下降的曲线曲率或者绝对值达到阈值后,触发模型重训练,并将服务发布。
[0021]智能服务驱动层通过主动学习对判断准确率低的预标注的样例提示,并进行难例标注,难例标注的结果反馈后重新进行模型训练以及智能服务的封装。
[0022]模型训练分为基于全量数据进行模型初始化训练和增量学习两种方式。
[0023]智能服务驱动层包括智能预标注模块、主动学习模块、难例标注模块、模型训练模块以及服务封装模块;
[0024]智能预标注模块通过将已有的智能模型在人工标注之前进行机器智能标注;
[0025]主动学习模块对待标注的数据进行筛选;
[0026]难例标注模块在分析出判断错误的难例后,对错误频率高的难例优先人工标注;
[0027]模型训练模块对标注数据集进行深度学习模型的训练工作,通过容器云平台调度硬件集群资源,通过动态分配资源开启容器进行模型训练;
[0028]服务封装模块将训练出来的模型文件封装成服务供外部系统调用。
[0029]服务封装模块首先创建Django工程,Django工程通过Python代码新建REST服务;然后在工程启动代码中加入模型推理脚本中的推理函数;最后通过调用模型推理函数进行推理计算返回。
[0030]服务能力评估层包括知识服务调用引擎、评估指标体系和指标实时计算模块;
[0031]知识服务调用引擎自动匹配出所需的知识表征模式,选用不同知识类型和标签体系下的智能抽取服务;
[0032]评估指标体系根据业务类型构建不同的领域指标库,将不同类型指标排序展现;
[0033]指标实时计算模块根据不同的指标体系以及搜集数据的频率进行指标的实时计算,按照评估指标的体系依据关键性排序展现指标分值。
[0034]知识能力演进层包括知识服务运行支撑环境、演进触发引擎以及知识服务集成框架;
[0035]知识服务运行支撑环境对知识抽取的服务在异构系统中运行提供支撑;
[0036]演进触发引擎根据实时计算的指标参数值的变化,通过智能服务驱动层的主动学习重新标注出训练数据集,增量训练并发布成服务使用;
[0037]知识服务集成框架匹配选定出需部署的安装包并提供部署脚本。
[0038]有益效果:与现有技术相比,本专利技术具有以下优点:
[0039](1)本专利技术针对适应未来智能化场景复杂多变的特点,使得智能系统需要具备动态演进能力,通过主动学习来辅助构建知识抽取模型,将系统体系能力生成过程中所需的各类知识本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于主动学习的知识抽取平台的构建方法,其特征在于:所述知识抽取平台包括标签体系构建层、智能服务驱动层、服务能力评估层和知识能力演进层;所述标签体系构建层通过对原始数据集统一接入以及预处理,依据原始数据的特征选择对应的实体类知识、事件类知识以及规则类知识的表征模式,构建待标注的标签体系;所述智能服务驱动层通过智能预标注中预置的模型,将原始数据集按照标签体系构建层建立的标签体系进行预标注、模型训练以及智能服务的封装;所述服务能力评估层通过知识服务调用引擎调用知识构建智能服务驱动层中所封装的服务进行知识抽取,并进行指标的实时计算;所述知识能力演进层,对知识构建服务统一管理;所述知识抽取平台的构建方法包括以下步骤:步骤(1),对原始数据或者标注数据引接,通过上传或者配置数据库连接从而将数据引接到所述知识抽取平台中,并通过转换统一以utf

8格式的文本文件的形式保存;步骤(2),根据知识抽取的任务以及数据源文件的特征选择或者新建编辑标签体系;步骤(3),进行人在环路的机器标注以及模型训练发布,根据原始数据集和标签进行标注数据集构建以及服务发布;步骤(4),服务封装调用与迭代演进,基于步骤(3)训练出来的模型进行服务化封装,将服务导出服务安装包,根据知识服务需求筛选服务进行调用。2.根据权利要求1所述的基于主动学习的知识抽取平台的构建方法,其特征在于:步骤(2)中,根据知识抽取任务,选择文本内容的特征分析;选择标签体系的匹配度最大者为标注的标签体系,若匹配度达不到阈值,则人工新建编辑标签体系。3.根据权利要求1所述的基于主动学习的知识抽取平台的构建方法,其特征在于:步骤(3)包括以下步骤:步骤(3.1),通过三种预标注方式进行标注数据集的构建:首先通过逻辑规则的标注,进行隐式标注;然后以远程监督的方式,基于已有的知识图谱辅助进行实体关系的抽取;最后根据已有的智能预标注服务进行预标注,共同生成标注数据集;步骤(3.2),对已有的标注数据进行模型训练,训练生成的二进制文件利用容器云进行智能服务的新建与发布,发布的服务进入预标注服务列表,服务调用的难例数据进入主动学习模块,进行人工标注,迭代生成新的标注数据和模型。4.根据权利要求1所述的基于主动学习的知识抽取平台的构建方法,其特征在于:步骤(4)中,在调用过程中搜集指标函数进行实时监控,若指标函数下降的曲线曲率或者绝对值达到阈值后,触发模型重...

【专利技术属性】
技术研发人员:易侃王羽王菁徐欣荀智德王振宇
申请(专利权)人:中国电子科技集团公司第二十八研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1