一种相识文本自动扩展的系统及其方法技术方案

技术编号:23190988 阅读:14 留言:0更新日期:2020-01-24 16:17
本发明专利技术提供了一种相识文本自动扩展的系统,所述系统包括:技能配置模块、产品管理模块、技能同步模块、以及生成语料模块;所述技能配置模块,负责扩展类型的创建和对应的扩展模板配置;所述产品管理模块,通过产品配置技能的方式来为产品提供扩展能力,产品同时配置多个技能来完善扩展能力,所述技能同步模块,负责将当前产品所配置的所有技能下的所有扩展模板进行整合,作为产品扩展能力的知识库;所述生成语料模块,将导入产品的语料集合通过当前产品的技能能力与知识库进行一个自动化扩展,本发明专利技术可以实现自动化扩展替换,有效提高执行效率。

A system and method of automatic extension of acquaintance text

【技术实现步骤摘要】
一种相识文本自动扩展的系统及其方法
本专利技术涉及计算机
,特别是一种相识文本自动扩展的系统及其方法。
技术介绍
在智能领域高速发展的当今,自然语言理解是一个很重要的发展方向。拥有好的语意理解将赋予产品(如机器人)更加智能的形象。以目前最常见的客服机器人为例,机器人回答的所有答案都是通过预先设置好的内容(闲聊机器人除外),与此同时机器人能够理解的文本内容也是通过人为配置的。为了让机器人能够识别不同的问法,配置人员需要赋予机器人足够多的语料集合,测试人员也需要编写足够多的语料来测试机器人回复的正确性。举例,原始需求语料有一句:“如何办理图书馆准入证”,那么机器人除了识别“如何办理图书馆准入证”这句话并给出答案之外,“图书馆准入证怎么办理”、“你知道图书馆准入证的办理流程吗”、“图书馆准入证如何办理”等问法也需要能够被识别。而这些语料扩展目前主要是通过人为的去思考扩展,甚至有时候为了覆盖更多的语料,配置和测试人员也需要通过查询语句中关键词的同义词来做替换扩展。现有的扩展语料的方式存在如下缺点:缺点一,目前为了让机器人能够识别足够多的问法,语料都会通过人工的方式进行问句扩展,再将其赋予给机器人。但是如果都是通过人为来扩展的话,扩展的人员可能由于文采水平的限制,没有思绪,扩展并不充分,而导致机器人识别能力并不是很高。缺点二,除了缺点一中案例的句式扩展,同义词的扩展也是必要的。但是操作人员长期通过同义词查询进行同义词替换的操作,随着时间久了,很容易给执行该工作的人员带来厌烦的情绪(同义词替换的举例:图书馆的地址在哪?地址的同义词:位置、地点,替换同义词询问:图书馆的位置在哪,程序也应该能够识别)。缺点三,目前汉语文本虽然可以通过同义词推荐的来进行替换扩展,同缺点二中所述,同义词替换来扩展推荐的同义句是必要的,但是同义词也存在不可完全替换的情况。需要针对场景来进行替换,有些场景下同义词替换之后,语意可能就变了。所以主要的判断最终还是落到了人工来处理,就导致语料扩展的成本非常高。缺点四,配置或测试人员拿到对话需求之后,都要针对对话需求中的内容进行扩展,配置人员是为了让机器人支持不同的问句方式,而测试人员则是为了验证程序是否支持花样的问法。而这两方的实施基础都是基于丰富的语料集合。但是如果针对所有的语料进行独立扩展,两方都会占用大量的语料扩展时间,但是又不得不进行扩展。缺点五,客服系统的智能另一方面体现在正确性、及时性,所以每个产品都会不断的去完善补充新的语料或更新最新答案,这种情况下很容易出现新旧问句答案不一样的情况。这种情况下,大部分是通过测试人员测试过程中去发现。但是测试才发现,会导致需要重新调整配置的情况,会增加测试往返的轮次,除此之外也可能出现回答的随机性,从而导致测试人员的漏测。
技术实现思路
为克服上述问题,本专利技术的目的是提供一种相识文本自动扩展的系统,实现一些常见模板问法的自动化扩展,无需人工投入,有效提高执行效率。本专利技术采用以下方案实现:一种相识文本自动扩展的系统,所述系统包括:技能配置模块、产品管理模块、技能同步模块、以及生成语料模块;所述技能配置模块,负责扩展类型的创建和对应的扩展模板配置;所述产品管理模块,通过产品配置技能的方式来为产品提供扩展能力,产品同时配置多个技能来完善扩展能力,所述技能同步模块,负责将当前产品所配置的所有技能下的所有扩展模板进行整合,作为产品扩展能力的知识库;所述生成语料模块,将导入产品的语料集合通过当前产品的技能能力与知识库进行一个自动化扩展,所述语料包含问题和回答两个字段。进一步的,所述技能配置模块进一步具体为:提供一个技能平台化界面,用户能通过技能平台化界面创建自定义技能,在对应技能下,能创建各类扩展类型及说明,在每个扩展类型下,能进行扩展模板的配置;所述技能配置模块还提供一个词性查询功能,用于用户查询原有语句文本中的词性组合情况;所述词性组合的结构为:分词+词性名称+词性代码;用户能根据原有语句词性组合的情况扩展下配置对应的扩展模板,所述扩展模板的结构为:扩展类型名称+扩展说明+原有语句+扩展句式。进一步的,所述产品管理模块进一步具体为:提供一个产品平台化界面,该产品平台化界面创建专属产品,并添加个人定制的技能,与此同时也能添加其他人员创建的技能;所述产品管理模块还提供一个同义词导入的功能、一个产品配置功能、一个同义词扩展开关、一个restful的访问接口,所述同义词导入的功能,用于将同义词导入到系统中,且导入格式不限制;所述产品配置功能,用于支持配置是否启用同义词扩展能力;所述同义词扩展开关,用于加载当前产品下技能的所有扩展模板,加入到内存中,为对外提供扩展能力提供知识库;所述restful的访问接口,供其他需求的业务调用,只要输入文档主题属性body中包含question=“这是一个字段”的请求内容,访问接口会以列表属性字段来显示返回当前产品下能够扩展的所有句子。进一步的,所述技能同步模块进一步具体为:根据产品所配置的技能列表,读取所有所配置的技能;再则读取每个技能下的扩展类型及扩展模板并进行整合;最后将整合的所有扩展模板配置作为扩展的知识库。进一步的,所述生成语料模块进一步包括语料查重单元和句式扩展单元,所述语料查重单元,对语料进行过滤处理,给出存在的冲突语料列表;所述句式扩展单元用于读取待扩展的语料集合,每条语料以问题和回答两个字段的形式存储到列表中;对每条待扩展的语料进行分词和词性标注,然后再把该分词和标注的结果和知识库里面的扩展模板进行比对,如果发现存在一样的模板,则找到该模板的扩展类型,并将该扩展类型下的模板进行词汇替换,给出替换完后的扩展词汇;把扩展的问句以对象的方式加入到扩展语料集合,并继续进行扩展直到完成所有扩展。进一步的,所述语料查重单元进一步具体为:对每个语料对象与其他语料对象进行对比,判断是否存在分词之后一模一样的问句,如果存在一模一样的问句,再比对二者的答案是否一样,如果答案也一样,则删除其中一个问句,如果答案不一样,则把这两个问句对象加到一设置的冲突列表中;所有语料都完成对比操作后,最终输出冲突列表,供用户进行调整。另外,本专利技术还提供了一种相识文本自动扩展的方法,所述扩展的方法采用如权利要求1所述的扩展的系统进行扩展,所述扩展方法包括如下步骤:步骤S1、系统中的技能配置模块利用技能来创建扩展类型,并配置每个扩展类型下的扩展模板,所述配置内容包括:扩展类型名称、扩展类型描述、以及扩展句式模板列表;步骤S2、产品管理模块再通过产品配置技能的方式来为产品提供扩展能力,产品能同时配置多个技能来完善扩展能力;步骤S3、所述技能同步模块将当前产品所配置的所有技能下的所有扩展模板进行整合,作为产品扩展能力的知识库;步骤S4、当有语料需要进行扩展的时候,生成语料模块进行操作,即上传语料或配置语料对应存储的数据库链接;根据需求打开或关闭技能同步模块中的同义词扩展开关;进行开始转换;生成语料模块通过当前产品的技能能力与知本文档来自技高网
...

【技术保护点】
1.一种相识文本自动扩展的系统,其特征在于:所述系统包括:技能配置模块、产品管理模块、技能同步模块、以及生成语料模块;/n所述技能配置模块,负责扩展类型的创建和对应的扩展模板配置;/n所述产品管理模块,通过产品配置技能的方式来为产品提供扩展能力,产品同时配置多个技能来完善扩展能力,/n所述技能同步模块,负责将当前产品所配置的所有技能下的所有扩展模板进行整合,作为产品扩展能力的知识库;/n所述生成语料模块,将导入产品的语料集合通过当前产品的技能能力与知识库进行一个自动化扩展,所述语料包含问题和回答两个字段。/n

【技术特征摘要】
1.一种相识文本自动扩展的系统,其特征在于:所述系统包括:技能配置模块、产品管理模块、技能同步模块、以及生成语料模块;
所述技能配置模块,负责扩展类型的创建和对应的扩展模板配置;
所述产品管理模块,通过产品配置技能的方式来为产品提供扩展能力,产品同时配置多个技能来完善扩展能力,
所述技能同步模块,负责将当前产品所配置的所有技能下的所有扩展模板进行整合,作为产品扩展能力的知识库;
所述生成语料模块,将导入产品的语料集合通过当前产品的技能能力与知识库进行一个自动化扩展,所述语料包含问题和回答两个字段。


2.根据权利要求1所述的一种相识文本自动扩展的系统,其特征在于:所述技能配置模块进一步具体为:提供一个技能平台化界面,用户能通过技能平台化界面创建自定义技能,在对应技能下,能创建各类扩展类型及说明,在每个扩展类型下,能进行扩展模板的配置;所述技能配置模块还提供一个词性查询功能,用于用户查询原有语句文本中的词性组合情况;所述词性组合的结构为:分词+词性名称+词性代码;用户能根据原有语句词性组合的情况扩展下配置对应的扩展模板,所述扩展模板的结构为:扩展类型名称+扩展说明+原有语句+扩展句式。


3.根据权利要求1所述的一种相识文本自动扩展的系统,其特征在于:所述产品管理模块进一步具体为:提供一个产品平台化界面,该产品平台化界面创建专属产品,并添加个人定制的技能,与此同时也能添加其他人员创建的技能;所述产品管理模块还提供一个同义词导入的功能、一个产品配置功能、一个同义词扩展开关、一个restful的访问接口,所述同义词导入的功能,用于将同义词导入到系统中,且导入格式不限制;所述产品配置功能,用于支持配置是否启用同义词扩展能力;所述同义词扩展开关,用于加载当前产品下技能的所有扩展模板,加入到内存中,为对外提供扩展能力提供知识库;所述restful的访问接口,供其他需求的业务调用,只要输入文档主题属性body中包含question=“这是一个字段”的请求内容,访问接口会以列表属性字段来显示返回当前产品下能够扩展的所有句子。


4.根据权利要求1所述的一种相识文本自动扩展的系统,其特征在于:所述技能同步模块进一步具体为:根据产品所配置的技能列表,读取所有所配置的技能;再则读取每个技能下的扩展类型及扩展模板并进行整合;最后将整合的所有扩展模板配置作为扩展的知识库。


5.根据权利要求1所述的一种相识文本自动扩展的系统,其特征在于:所述生成语料模块进一步包括语料查重单元和句式扩展单元,所述语料查重单元,对语料进行过滤处理,给出存在的冲突语料列表;所述句式扩展单元用于读取待扩展的语料集合,每条语料以问题和回答两个字段的形式存储到列表中;对每条待扩展的语料进行分词和词性标注,然后再把该分词和标注的...

【专利技术属性】
技术研发人员:刘德建梁益冰林剑锋林琛
申请(专利权)人:福建天晴数码有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1