用于基于标准问创建扩展问的方法和装置制造方法及图纸

技术编号:12223103 阅读:122 留言:0更新日期:2015-10-22 01:14
本发明专利技术提供了一种用于基于标准问创建扩展问的方法,标准问和扩展问用于人工智能语义识别系统中,包括:基于该标准问所属的数据范围从该人工智能语义识别系统的内部数据源或外部数据源采集数据;以所采集数据为对象执行与该标准问的问句相似度计算以获得相似问句集;以及对该相似问句集执行主语修改以获得该标准问的扩展问。

【技术实现步骤摘要】

本专利技术涉及知识库的编辑与扩展,尤其涉及用于人工智能语义识别的标准问的扩 展。
技术介绍
人机交互是研宄系统与用户之间的交互关系的科学。系统可以是各种各样的机 器,也可以是计算机化的系统和软件。例如,通过人机交互可以实现各种人工智能系统,例 如,智能客服系统、语音控制系统等等。人工智能语义识别是人机交互的基础,其能够对人 类语言进行识别,以转换成机器能够理解的语言。 为了能够理解人类语言,人工智能语义识别系统需要一套知识库。海量异构数据 通过知识学习体系整理成知识,并融入到已有的知识体系中来。不同企业会生成各自的"专 属知识";同领域企业的知识中可以总结出"领域语义库",如图中的"电信领域语义库";多 个行业的知识还可以总结成"通用语义库和知识库"。 知识库的编辑与扩展对于人工智能语义识别系统尤其重要。
技术实现思路
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是 所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非 试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一 些概念以为稍后给出的更加详细的描述之序。 根据本专利技术的一方面,提供了一种用于基于标准问创建扩展问的方法,标准问和 扩展问用于人工智能语义识别系统中,包括: 基于该标准问所属的数据范围从该人工智能语义识别系统的内部数据源或外部 数据源采集数据; 以所采集数据为对象执行与该标准问的问句相似度计算以获得相似问句集;以及 对该相似问句集执行主语修改以获得该标准问的扩展问。 在一实例中,该基于该标准问所属的数据范围从内部数据源或外部数据源采集数 据包括:若该标准问属于内部数据,则从该内部数据源调用所有内部数据,以及若该标准问 属于外部数据,则通过该外部数据源进行搜索爬取。 在一实例中,该方法还包括对通过该外部数据源爬取到的所采集数据进行整理以 过滤无用数据,该执行问句相似度计算是以整理后的所采集数据为对象来执行的。 在一实例中,若该标准问所属领域的词库在该人工智能语义识别系统的知识库中 已存在,则所属标准问为内部数据,否则为外部数据。 在一实例中,该内部数据源为该人工智能语义识别系统的知识库中已存在的关于 该标准问的所属领域的词库,以及该外部数据源包括与该标准问的所属领域相关的第三方 数据库。 在一实例中,该问句相似度计算是基于文本聚类分析、LDA分析、或序列分析中的 任一者来执行的。 在一实例中,该相似问句集是与该标准问的相似度超过预定阈值的问句的集合。 在一实例中,该方法还包括至少部分地基于人工选择对该相似问句集执行筛选以 过滤无用数据,该问句主语修改是对调整后的该相似问句集来执行的。 在一实例中,对该相似问句集执行主语修改是至少部分地基于人工选择来执行 的。 根据本专利技术的另一方面,提供了一种用于基于标准问创建扩展问的装置,标准问 和扩展问用于人工智能语义识别系统中,包括: 数据采集单元,用于基于标准问所属的数据范围从该人工智能语义识别系统的内 部数据源或外部数据源采集数据; 问句相似度计算单元,用于以所采集数据为对象执行与该标准问的问句相似度计 算以获得相似问句集;以及 主语修改单元,用于对该相似问句集执行主语修改以获得该标准问的扩展问。 在一实例中,该数据采集单元包括:调用单元,以用于响应于该标准问属于内部数 据,从该内部数据源调用所有内部数据;以及爬取单元,以用于响应于该标准问属于外部数 据,通过该外部数据源进行搜索爬取。 在一实例中,该装置还包括:整理单元,以用于对通过该外部数据源爬取到的所采 集数据进行整理以过滤无用数据。 在一实例中,该装置还包括:筛选单元,用于至少部分地基于人工选择对该相似问 句集进行筛选以过滤无用数据。 在一实例中,若该标准问所属领域的词库在该人工智能语义识别系统的知识库中 已存在,则所属标准问为内部数据,否则为外部数据。 在一实例中,该内部数据源为该人工智能语义识别系统的知识库中已存在的关于 该标准问的所属领域的词库,以及该外部数据源包括与该标准问的所属领域相关的第三方 数据库。 在一实例中,该主语修改单元至少部分地基于人工选择对该相似问句集执行主语 修改。【附图说明】 在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本专利技术的 上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征 的组件可能具有相同或相近的附图标记。 图1是示出了根据本专利技术的一方面的创建扩展问的方法的流程图; 图2是示出了根据本专利技术的一方面的创建扩展问的装置的框图。 符号说明: 210 :数据采集单元 211 :调用单元 212 :爬取单元 220 :问句相似度计算单元 230 :筛选单元 240 :主语修改单元【具体实施方式】 以下结合附图和具体实施例对本专利技术作详细描述。注意,以下结合附图和具体实 施例描述的诸方面仅是示例性的,而不应被理解为对本专利技术的保护范围进行任何限制。 知识库中的基本知识点最原始和最简单的形式就是平时常用的FAQ,一般的形式 是"问_答"对。在本专利技术中,"标准问"是用来表示某个知识点的文字,主要目标是表达清 晰,便于维护。例如,"彩铃的资费"就是表达清晰的标准问描述。这里的"问"不应被狭义 地理解为"询问",而应广义地来理解一"输入",该"输入"具有对应的"输出"。例如,对于 用于控制系统的语义识别而言,用户的一个指令,例如"打开收音机"也应可以被理解为是 一个"问",此时对应的"答"可以是用于执行相应控制的控制程序的调用。 用户在向机器输入时,最理想的情况是使用标准问,则机器的智能语义识别系统 马上能够理解用户的意思。然而,用户往往并非使用的是标准问,而是标准问的一些变形的 形式。例如,若对于收音机的电台切换的标准问形式是"换一个电台",那么用户可能使用的 命令是"切换一个电台",机器也需要能够识别用户表达的是同一个意思。 因此,对于智能语义识别而言,知识库里需要有标准问的扩展问,该扩展问与标准 问表达形式有略微差异,但是表达相同的含义。传统上,往往依赖人工"想"的形式,想出一 个标准问尽可能多的扩展问,但是非常耗费人力,而且"漏想"的概率很高。 在本专利技术中,通过大数据分析聚合的方式,最大的利用了已有产品的日志数据与 外部数据。快速定位到了语义扩展问的内容,将原来的"想"扩展问,改成了判定其内容准 确性。 图1是示出了根据本专利技术的一方面的创建扩展问的方法100的流程图。如图1所 示,首先提供一标准问,作为扩展的基础。例如,该标准问可为"换一个扫地模式"。 在步骤101,可对该标准问的数据范围进行判定。一般而言,数据范围可以分为内 部数据和外部数据。这里的内部数据和外部数据是相对于人工智能语义识别系统的知识库 而言的。例如,若该标准问是该知识库内已有的数据,则为内部数据,否则为外部数据。 更具体地,若该标准问所属的语义领域是知识库中已有的领域,则为内部数据,否 则为外部数据。以上述"换一个扫地模式"为例,该标准问用于扫地机器人,属于家电智能 领域,若系统的知识库内已经有关于家电智能领域的词库,则该标准问为内部数据,否则该 标准问为外部数据。 在步骤102,为该标准问添加属性本文档来自技高网...

【技术保护点】
一种用于基于标准问创建扩展问的方法,标准问和扩展问用于人工智能语义识别系统中,包括:基于所述标准问所属的数据范围从所述人工智能语义识别系统的内部数据源或外部数据源采集数据;以所采集数据为对象执行与所述标准问的问句相似度计算以获得相似问句集;以及对所述相似问句集执行主语修改以获得所述标准问的扩展问。

【技术特征摘要】

【专利技术属性】
技术研发人员:蔡宏伟朱频频
申请(专利权)人:上海智臻网络科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1