一种用于知识库构建的动态数据采编方法技术

技术编号:23764701 阅读:54 留言:0更新日期:2020-04-11 19:13
本发明专利技术公开一种用于知识库构建的动态数据采编方法,本方法根据采编知识的数据类型定义数据类型模板,由自定义的数据类型模板,生成知识模板树图,知识模板树图中的每一个结点既有自身属性维持树图的父子关系,又有知识模板属性确定知识模板中包括的数据项单元,基于知识模板树图进行知识采编和编辑,便于知识录入规则校验,保证了数据的整体质量;尤其是知识的存储方式,存储时,把各种不同知识模板的数据封装为统一的格式。本发明专利技术提高了录入效率,知识便于管理,机器人学习更方便。

A dynamic data acquisition and compilation method for knowledge base construction

【技术实现步骤摘要】
一种用于知识库构建的动态数据采编方法
本专利技术涉及人工智能领域,是机器人对话知识库构建的一部分,尤其涉及动态数据采编的处理,是一种用于知识库构建的动态数据采编方法。
技术介绍
随着机器人在生产生活各个领域的广泛应用,机器人的智能化程度正逐渐增强。机器人智能化的不断提高,离不开大量的知识学习。尤其行业服务机器人,服务特定对象客户,要求更专业精准,需要学习行业内专业的知识内容。在知识库建设过程中,我们发现,除了存在大量简单的DeepQA知识和复杂的特定场景知识外,类二维表格形式的知识,也是一种不能忽视的存在。它的基数比较庞大,各种规格,内容不一,手动录入效率低下;人工核验维护,数据整体质量不高;数据多样化,不便于自动化管理,很难形成统一的数据接口或模式,为机器人对话系统服务;虽然耗费了极多人力和时间,但整体效果不佳。
技术实现思路
针对现有技术的缺陷,本专利技术提供一种用于知识库构建的动态数据采编方法,快速、高效,机器人学习更方便。为了解决所述技术问题,本专利技术采用的技术方案是:一种用于知识库构建的动态数据采编方法,包括以下步骤:S01)、定义数据类型模板,根据采编知识的数据类型定义数据类型模板,并确定数据类型模板与数据编辑区、单位编辑区的对应关系,数据类型模板具有唯一的内部编号;S02)、生成知识模板树图,知识模板树图的根节点代表行业,分支结点代表业务类型,叶子结点代表某一种业务类型的某一种数据采编模板;知识模板树图中的每一个结点既有自身属性维持树图的父子关系,又有知识模板属性确定知识模板中包括的数据项单元;自身属性包括结点编号、结点名称和父结点编号,结点编号在知识模板树图中唯一存在,结点名称又是业务类型或者数据采编模板的名称,父结点编号与结点编号共同确定结点在树图中的位置;知识模板属性包括属性名称、内部编号、属性类型、选项值、顺序号、注释信息、是否为必填项,属性类型为步骤S01定义的数据类型模板,选项值为数据编辑区值或单位编辑区值;建立节点编号与数据项单元之间的第一对应关系,建立数据项单元与数据类型模板之间的第二对应关系,每个数据项单元具有唯一的数据项内部编号及名称;将自身属性、知识模板属性以及对应关系存储在数据库中;S03)、知识采编,在知识模板树图中,通过结点的知识模板属性,由步骤S02建立的第一对应关系、第二对应关系和数据类型模板与数据编辑区、单位编辑区的对应关系生成知识采编模板;通过数据项单元的属性类型确定每一个数据编辑区的数据录入校验规则;建立结点编号与采编知识内部编号的第三对应关系,每一条采编知识具有唯一的内部编号;将采编数据存储到数据库中;S04)、知识编辑,在知识模板树图中,通过结点的知识模板属性,由步骤S03建立的第三对应关系和知识内部编号确定已录入的知识;由步骤S02建立的第一对应关系、第二对应关系和数据类型模板与数据编辑区、单位编辑区的对应关系生成知识采编模板;对已录入知识进行处理,使在展现采编知识模板的同时,为数据编辑区或者单位编辑区填充已录入的数据;将编辑数据存储到数据库中;S05)、知识存储,由于数据项单元的不确定性,在知识存储之前先对采编、编辑的数据进行处理,处理方式为:由第一对应关系确定知识模板中包括的数据项单元,将每一个数据项单元的属性名称、内部编号和数据编辑区、单位编辑区的编辑信息,处理封装为标准JSON格式数据,然后将所有数据项单元的JSON格式数据封装为标准JSON数组,然后将标准JSON数组、第三对应关系存储在数据库。进一步的,数据类型模板包括整数类型、双精度类型、字符串类型、单选类型、多选类型、价格类型、日期类型、长度类型、时间类型、FAQ类型和选择类型。进一步的,数据类型模板与数据编辑区、单位编辑区的对应关系为:字符串类型、日期类型、FAQ类型、单选类型、多选类型、选择类型只包括数据编辑区;价格类型、长度类型、时间类型、整数类型、双精度类型包括数据编辑区和单位编辑区。进一步的,使用JavaScript脚本定义数据类型模板。进一步的,通过数据项单元的属性类型确定每一个数据编辑区的数据录入校验规则为:判断录入数据是否为数据类型模板对应的数据类型,然后根据数据项单元的是否为必填项判断是否必须录入。进一步的,结点编号与数据项单元是一对多的对应关系,数据项单元与数据类型模板为一对一的对应关系,结点编号与采编知识内部编号是一对多的对应关系。进一步的,知识存储之前要对每一个数据项单元的属性名称、内部编号和数据编辑区、单位编辑区的数据进行标准JSON格式结构化处理。本专利技术通过建立不同类型的知识模板,提高了录入效率,知识便于管理;由自定义的数据类型模板,便于知识录入规则校验,保证了数据的整体质量;尤其是知识的存储方式,把各种不同知识模板的数据封装为统一的格式,可形成统一的数据接口或模式,为机器人对话系统服务。附图说明图1为定义的数据类型模板的示意图;图2为生成的知识模板树图的示意图;图3为一种知识模板中包括的数据项单元的示意图;图4为数据项单元的一种录入的示意图;图5为一种采编模板生成开始采编知识的示意图;图6为一种采编模板录入完成的知识的示意图。具体实施方式下面结合附图和具体实施例对本专利技术作进一步的说明。实施例1本实施例公开一种用于知识库构建的动态数据采集方法,包括以下步骤:S01)、定义数据类型模板,使用JavaScript脚本自定义数据类型模板,数据类型模板依据采编知识的数据类型而定,数据类型模板包括数据编辑区或单位编辑区。如图1所示,依据采编知识的数据类型,数据类型模板包括整数类型、双精度类型、字符串类型、单选类型、多选类型、价格类型、日期类型、长度类型、时间类型、FAQ类型和选择类型。如图4所示,数据项单元录入时引用了一种多选数据类型。数据类型模板模板与数据编辑区、单位编辑区存在对应关系,具体为:字符串类型、日期类型、FAQ类型、单选类型、多选类型、选择类型只包括数据编辑区;字符串类型对应文本输入,日期类型对应时间选择,FAQ类型引用已录入的FAQ知识,单选类型、多选类型、选择类型需关联由“选项值”参数录入的选项,每一个选项之间用英文“,”分割。价格类型、长度类型、时间类型、整数类型、双精度类型包括数据编辑区和单位编辑区。价格类型单位编辑区对应选择列表["yuan":"元","wyuan":"万元"],长度类型单位编辑区对应选择列表["m":"m","km":"km","cm":"cm","mm":"mm"],时间类型单位编辑区对应选择列表["ss":"秒","mm":"分钟","hh":"小时","dd":"天","MM":"月","QT":"季度","HY":"半年","YY":"年"],整数类型和双精度类型单位编辑区是可自定义的文本。本实施例中,数据类型模本文档来自技高网...

【技术保护点】
1.一种用于知识库构建的动态数据采编方法,其特征在于:包括以下步骤:/nS01)、定义数据类型模板,根据采编知识的数据类型定义数据类型模板,并确定数据类型模板与数据编辑区、单位编辑区的对应关系,数据类型模板具有唯一的内部编号;/nS02)、生成知识模板树图,知识模板树图的根节点代表行业,分支结点代表业务类型,叶子结点代表某一种业务类型的某一种数据采编模板;/n知识模板树图中的每一个结点既有自身属性维持树图的父子关系,又有知识模板属性确定知识模板中包括的数据项单元;/n自身属性包括结点编号、结点名称和父结点编号,结点编号在知识模板树图中唯一存在,结点名称又是业务类型或者数据采编模板的名称,父结点编号与结点编号共同确定结点在树图中的位置;/n知识模板属性包括属性名称、内部编号、属性类型、选项值、顺序号、注释信息、是否为必填项,属性类型为步骤S01定义的数据类型模板,选项值为数据编辑区值或单位编辑区值;/n建立节点编号与数据项单元之间的第一对应关系,建立数据项单元与数据类型模板之间的第二对应关系,每个数据项单元具有唯一的数据项内部编号及名称;/n将自身属性、知识模板属性以及对应关系存储在数据库中;/nS03)、知识采编,在知识模板树图中,通过结点的知识模板属性,由步骤S02建立的第一对应关系、第二对应关系和数据类型模板与数据编辑区、单位编辑区的对应关系生成知识采编模板;/n通过数据项单元的属性类型确定每一个数据编辑区的数据录入校验规则;/n建立结点编号与采编知识内部编号的第三对应关系,每一条采编知识具有唯一的内部编号;/n将采编数据存储到数据库中;/nS04)、知识编辑,在知识模板树图中,通过结点的知识模板属性,由步骤S03建立的第三对应关系和知识内部编号确定已录入的知识;由步骤S02建立的第一对应关系、第二对应关系和数据类型模板与数据编辑区、单位编辑区的对应关系生成知识采编模板;对已录入知识进行处理,使在展现采编知识模板的同时,为数据编辑区或者单位编辑区填充已录入的数据;/n将编辑数据存储到数据库中;/nS05)、知识存储,由于数据项单元的不确定性,在知识存储之前先对采编、编辑的数据进行处理,处理方式为:由第一对应关系确定知识模板中包括的数据项单元,将每一个数据项单元的属性名称、内部编号和数据编辑区、单位编辑区的编辑信息,处理封装为标准JSON格式数据,然后将所有数据项单元的JSON格式数据封装为标准JSON数组,然后将标准JSON数组、第三对应关系存储在数据库。/n...

【技术特征摘要】
1.一种用于知识库构建的动态数据采编方法,其特征在于:包括以下步骤:
S01)、定义数据类型模板,根据采编知识的数据类型定义数据类型模板,并确定数据类型模板与数据编辑区、单位编辑区的对应关系,数据类型模板具有唯一的内部编号;
S02)、生成知识模板树图,知识模板树图的根节点代表行业,分支结点代表业务类型,叶子结点代表某一种业务类型的某一种数据采编模板;
知识模板树图中的每一个结点既有自身属性维持树图的父子关系,又有知识模板属性确定知识模板中包括的数据项单元;
自身属性包括结点编号、结点名称和父结点编号,结点编号在知识模板树图中唯一存在,结点名称又是业务类型或者数据采编模板的名称,父结点编号与结点编号共同确定结点在树图中的位置;
知识模板属性包括属性名称、内部编号、属性类型、选项值、顺序号、注释信息、是否为必填项,属性类型为步骤S01定义的数据类型模板,选项值为数据编辑区值或单位编辑区值;
建立节点编号与数据项单元之间的第一对应关系,建立数据项单元与数据类型模板之间的第二对应关系,每个数据项单元具有唯一的数据项内部编号及名称;
将自身属性、知识模板属性以及对应关系存储在数据库中;
S03)、知识采编,在知识模板树图中,通过结点的知识模板属性,由步骤S02建立的第一对应关系、第二对应关系和数据类型模板与数据编辑区、单位编辑区的对应关系生成知识采编模板;
通过数据项单元的属性类型确定每一个数据编辑区的数据录入校验规则;
建立结点编号与采编知识内部编号的第三对应关系,每一条采编知识具有唯一的内部编号;
将采编数据存储到数据库中;
S04)、知识编辑,在知识模板树图中,通过结点的知识模板属性,由步骤S03建立的第三对应关系和知识内部编号确定已录入的知识;由步骤S02建立的第一对应关系、第二对应关系和数据类型模板与数据编辑区、单位编辑区的对应关系生成知识采编模板;对已录入知识进行处理,使在展现采编知识模板的同时,为数据编辑区或者单位编辑区填充已录入的数据;
将...

【专利技术属性】
技术研发人员:李明朱锦雷
申请(专利权)人:神思电子技术股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1