【技术实现步骤摘要】
一种相识文本自动扩展的系统及其方法
本专利技术涉及计算机
,特别是一种相识文本自动扩展的系统及其方法。
技术介绍
在智能领域高速发展的当今,自然语言理解是一个很重要的发展方向。拥有好的语意理解将赋予产品(如机器人)更加智能的形象。以目前最常见的客服机器人为例,机器人回答的所有答案都是通过预先设置好的内容(闲聊机器人除外),与此同时机器人能够理解的文本内容也是通过人为配置的。为了让机器人能够识别不同的问法,配置人员需要赋予机器人足够多的语料集合,测试人员也需要编写足够多的语料来测试机器人回复的正确性。举例,原始需求语料有一句:“如何办理图书馆准入证”,那么机器人除了识别“如何办理图书馆准入证”这句话并给出答案之外,“图书馆准入证怎么办理”、“你知道图书馆准入证的办理流程吗”、“图书馆准入证如何办理”等问法也需要能够被识别。而这些语料扩展目前主要是通过人为的去思考扩展,甚至有时候为了覆盖更多的语料,配置和测试人员也需要通过查询语句中关键词的同义词来做替换扩展。现有的扩展语料的方式存在如下缺点:缺点一,目前为了让机器人能够识别足够多的问法,语料都会通过人工的方式进行问句扩展,再将其赋予给机器人。但是如果都是通过人为来扩展的话,扩展的人员可能由于文采水平的限制,没有思绪,扩展并不充分,而导致机器人识别能力并不是很高。缺点二,除了缺点一中案例的句式扩展,同义词的扩展也是必要的。但是操作人员长期通过同义词查询进行同义词替换的操作,随着时间久了,很容易给执行该工作的人员带来厌烦的情绪(同义词替换的举例 ...
【技术保护点】
1.一种相识文本自动扩展的系统,其特征在于:所述系统包括:技能配置模块、产品管理模块、技能同步模块、以及生成语料模块;/n所述技能配置模块,负责扩展类型的创建和对应的扩展模板配置;/n所述产品管理模块,通过产品配置技能的方式来为产品提供扩展能力,产品同时配置多个技能来完善扩展能力,/n所述技能同步模块,负责将当前产品所配置的所有技能下的所有扩展模板进行整合,作为产品扩展能力的知识库;/n所述生成语料模块,将导入产品的语料集合通过当前产品的技能能力与知识库进行一个自动化扩展,所述语料包含问题和回答两个字段。/n
【技术特征摘要】
1.一种相识文本自动扩展的系统,其特征在于:所述系统包括:技能配置模块、产品管理模块、技能同步模块、以及生成语料模块;
所述技能配置模块,负责扩展类型的创建和对应的扩展模板配置;
所述产品管理模块,通过产品配置技能的方式来为产品提供扩展能力,产品同时配置多个技能来完善扩展能力,
所述技能同步模块,负责将当前产品所配置的所有技能下的所有扩展模板进行整合,作为产品扩展能力的知识库;
所述生成语料模块,将导入产品的语料集合通过当前产品的技能能力与知识库进行一个自动化扩展,所述语料包含问题和回答两个字段。
2.根据权利要求1所述的一种相识文本自动扩展的系统,其特征在于:所述技能配置模块进一步具体为:提供一个技能平台化界面,用户能通过技能平台化界面创建自定义技能,在对应技能下,能创建各类扩展类型及说明,在每个扩展类型下,能进行扩展模板的配置;所述技能配置模块还提供一个词性查询功能,用于用户查询原有语句文本中的词性组合情况;所述词性组合的结构为:分词+词性名称+词性代码;用户能根据原有语句词性组合的情况扩展下配置对应的扩展模板,所述扩展模板的结构为:扩展类型名称+扩展说明+原有语句+扩展句式。
3.根据权利要求1所述的一种相识文本自动扩展的系统,其特征在于:所述产品管理模块进一步具体为:提供一个产品平台化界面,该产品平台化界面创建专属产品,并添加个人定制的技能,与此同时也能添加其他人员创建的技能;所述产品管理模块还提供一个同义词导入的功能、一个产品配置功能、一个同义词扩展开关、一个restful的访问接口,所述同义词导入的功能,用于将同义词导入到系统中,且导入格式不限制;所述产品配置功能,用于支持配置是否启用同义词扩展能力;所述同义词扩展开关,用于加载当前产品下技能的所有扩展模板,加入到内存中,为对外提供扩展能力提供知识库;所述restful的访问接口,供其他需求的业务调用,只要输入文档主题属性body中包含question=“这是一个字段”的请求内容,访问接口会以列表属性字段来显示返回当前产品下能够扩展的所有句子。
4.根据权利要求1所述的一种相识文本自动扩展的系统,其特征在于:所述技能同步模块进一步具体为:根据产品所配置的技能列表,读取所有所配置的技能;再则读取每个技能下的扩展类型及扩展模板并进行整合;最后将整合的所有扩展模板配置作为扩展的知识库。
5.根据权利要求1所述的一种相识文本自动扩展的系统,其特征在于:所述生成语料模块进一步包括语料查重单元和句式扩展单元,所述语料查重单元,对语料进行过滤处理,给出存在的冲突语料列表;所述句式扩展单元用于读取待扩展的语料集合,每条语料以问题和回答两个字段的形式存储到列表中;对每条待扩展的语料进行分词和词性标注,然后再把该分词和标注的...
【专利技术属性】
技术研发人员:刘德建,梁益冰,林剑锋,林琛,
申请(专利权)人:福建天晴数码有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。