人机智能问答系统的断句识别方法和装置制造方法及图纸

技术编号:16483007 阅读:20 留言:0更新日期:2017-10-31 15:35
本申请公开了一种人机智能问答系统的断句识别方法和装置。所述方法的一具体实施方式包括:接收用户输入的当前语句;将所述当前语句输入预先训练的断句识别模型得到所述当前语句为完整语句的第一概率,其中,所述断句识别模型用于根据所述当前语句的汉语言模型对应的概率和循环神经网络语言模型对应的概率确定所述第一概率;若所述第一概率大于预设的第一阈值,则确定所述当前语句为完整语句。该实施方式将汉语言模型和循环神经网络语言模型相融合获得用于确定当前语句为完整语句的概率的断句识别模型,该断句识别模型可以提高人机智能问答系统判断所述当前语句为完整语句的准确率。

The man-machine intelligent question answering system segmentation recognition

The invention discloses a sentence recognition method and device human-computer intelligent answering system. Including a specific embodiment of the method: the current statement to receive user input; the sentence recognition model of the current statement input training has been the current statement for a full sentence first among them, the probability model for probability according to the identification of punctuation and recurrent neural network language model of Chinese language model the current statement the corresponding determine the first probability; if the first threshold of the first probability is greater than the preset, determine the current statement for a complete statement. The implementation way of Chinese language model and recurrent neural network language model fusion was used to determine the current statement for the probability of a full sentence segmentation recognition model, the segmentation recognition model can improve the human-computer intelligent question answering system of judging whether the current statement for the full sentence accuracy rate.

【技术实现步骤摘要】
人机智能问答系统的断句识别方法和装置
本申请涉及计算机
,具体涉及互联网
,尤其涉及人机智能问答系统的断句识别方法和装置。
技术介绍
随着人机智能技术的发展,越来越多的问答系统采用人机智能技术。现有的人机智能问答系统通常采用一问一答的形式,即默认用户输入为一个完整语句,而后针对该完整语句反馈问题的答案。而实际上人机对话的过程中,用户可能会将一个完整的语句拆成多个断句进行表达,比如用户可能会将“我想问一下东西送到北京需要多久”,拆分成“我想问一下”和“东西送到北京需要多久”两个断句进行输入。针对这种情况,就需要人机智能问答系统能够准确判断出用户输入语句的完整性。现有的人机智能问答系统通常是采用汉语言语言模型(N-gram模型)通过预测下一个词出现的概率来判断输入语句为完整语句的概率。但是,由于N-gram模型自身具有局限性,N的取值通常只能为2或3,即当前词的出现只与前面1个或2个词相关,导致该模型因信息缺失而不能准确判断输入语句是否为完整语句。
技术实现思路
本申请的目的在于提出一种改进的人机智能问答系统的断句识别方法和装置,来解决以上
技术介绍
部分提到的技术问题。第一方面,本申请提供了一种人机智能问答系统的断句识别方法,所述方法包括:接收用户输入的当前语句;将所述当前语句输入预先训练的断句识别模型得到所述当前语句为完整语句的第一概率,其中,所述断句识别模型用于根据所述当前语句的汉语言模型对应的概率和循环神经网络语言模型对应的概率确定所述第一概率;若所述第一概率大于预设的第一阈值,则确定所述当前语句为完整语句。在一些实施例中,所述方法还包括:基于循环神经网络语言模型,确定所述当前语句的第一个词出现在与所述当前语句相邻的上一句中的第二概率;若所述第二概率大于预设的第二阈值,则确定所述当前语句和与所述当前语句相邻的上一句均为断句;将所述当前语句与所述上一句相结合作为完整语句。在一些实施例中,所述方法还包括:建立断句识别模型的步骤,包括:获取问题语料库,其中,所述问题语料库包括多个问题语料,所述问题语料为完整语句;对各所述问题语料分词生成多个断句;根据所述断句中包含词的数目以及该断句对应的完整语句包含词的数目,确定各所述断句的分值,其中,所述分值用于表征与之对应的断句为完整语句的概率;确定各所述断句的所述汉语言模型对应的概率和循环神经网络语言模型对应的概率;以各所述断句的所述概率以及该断句的分值为训练样本,训练得到所述断句识别模型。在一些实施例中,所述对各所述问题语料分词生成多个断句,包括:生成所述断句的步骤,包括:对第一问题语料进行分词处理,获取由n个词组成的第一问题语料,其中,所述第一问题语料为所述问题语料库中的任一问题语料,n为自然数;在所述第一问题语料中取第1~i个词,生成第i个语句,其中,1≤i≤n;生成所述第一问题语料对应的n个断句;基于所述生成所述断句的步骤,生成所述问题语料库中各所述第一问题语料对应的断句。在一些实施例中,所述方法还包括:若所述第一概率小于或等于预设的第一阈值,则确定所述当前语句为断句;提示用户继续输入的提示信息。第二方面,本申请提供了一种人机智能问答系统的断句识别装置,所述装置包括:当前语句接收模块,配置用于接收用户输入的当前语句;第一概率获取模块,配置用于将所述当前语句输入预先训练的断句识别模型得到所述当前语句为完整语句的第一概率,其中,所述断句识别模型用于根据所述当前语句的汉语言模型对应的概率和循环神经网络语言模型对应的概率确定所述第一概率;完整语句确定模块,配置用于若所述第一概率大于预设的第一阈值,则确定所述当前语句为完整语句。在一些实施例中,所述装置还包括:第二概率确定模块,配置用于基于循环神经网络语言模型,确定所述当前语句的第一个词出现在与所述当前语句相邻的上一句中的第二概率;若所述第二概率大于预设的第二阈值,则确定所述当前语句和与所述当前语句相邻的上一句均为断句;将所述当前语句与所述上一句相结合作为完整语句。在一些实施例中,所述装置还包括:断句识别模型建立模块,配置用于建立断句识别模型,所述断句识别模型建立模块包括:问题语料库获取单元,配置用于获取问题语料库,其中,所述问题语料库包括多个问题语料,所述问题语料为完整语句;断句生成单元,配置用于对各所述问题语料分词生成多个断句;分值确定单元,配置用于根据所述断句中包含词的数目以及该断句对应的完整语句包含词的数目,确定各所述断句的分值,其中,所述分值用于表征与之对应的断句为完整语句的概率;概率确定单元,配置用于确定各所述断句的所述汉语言模型对应的概率和循环神经网络语言模型对应的概率;断句识别模型训练单元,配置用于以各所述断句的所述概率以及该断句的分值为训练样本,训练得到所述断句识别模型。在一些实施例中,所述断句生成单元配置具体用于:生成所述断句,且生成所述断句的步骤包括:对第一问题语料进行分词处理,获取由n个词组成的第一问题语料,其中,所述第一问题语料为所述问题语料库中的任一问题语料,n为自然数;在所述第一问题语料中取第1~i个词,生成第i个语句,其中,1≤i≤n;生成所述第一问题语料对应的n个断句;基于所述生成所述断句的步骤,生成所述问题语料库中各所述第一问题语料对应的断句。在一些实施例中,所述装置还包括:断句确定模块,配置用于若所述第一概率小于或等于预设的第一阈值,则确定所述当前语句为断句;生成提示用户继续输入的提示信息。本申请提供的人机智能问答系统的断句识别方法和装置,首先接收用户输入的当前语句,之后将接收到的当前语句输入预先训练的断句识别模型,以获取该当前语句为完整语句的第一概率,而后判断该第一概率是否大于预设的第一阈值,若是,则确定该当前语句为完整语句,该方法将汉语言模型和循环神经网络语言模型相融合获得用于确定当前语句为完整语句的概率的断句识别模型,该断句识别模型可以提高人机智能问答系统判断所述当前语句为完整语句的准确率。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的人机智能问答系统的断句识别方法的一个实施例的流程图;图3是根据本申请的人机智能问答系统的断句识别方法中,获得预先训练的断句识别模型的一种实现方式的示意性流程图;图4是根据本申请的人机智能问答系统的断句识别方法的又一个实施例的流程图;图5是根据本申请的人机智能问答系统的断句识别装置的一个实施例的结构示意图;图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的人机智能问答系统的断句识别方法或人机智能问答系统的断句识别装置的实施例的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、本文档来自技高网...
人机智能问答系统的断句识别方法和装置

【技术保护点】
一种人机智能问答系统的断句识别方法,其特征在于,所述方法包括:接收用户输入的当前语句;将所述当前语句输入预先训练的断句识别模型得到所述当前语句为完整语句的第一概率,其中,所述断句识别模型用于根据所述当前语句的汉语言模型对应的概率和循环神经网络语言模型对应的概率确定所述第一概率;若所述第一概率大于预设的第一阈值,则确定所述当前语句为完整语句。

【技术特征摘要】
1.一种人机智能问答系统的断句识别方法,其特征在于,所述方法包括:接收用户输入的当前语句;将所述当前语句输入预先训练的断句识别模型得到所述当前语句为完整语句的第一概率,其中,所述断句识别模型用于根据所述当前语句的汉语言模型对应的概率和循环神经网络语言模型对应的概率确定所述第一概率;若所述第一概率大于预设的第一阈值,则确定所述当前语句为完整语句。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于循环神经网络语言模型,确定所述当前语句的第一个词出现在与所述当前语句相邻的上一句中的第二概率;若所述第二概率大于预设的第二阈值,则确定所述当前语句和与所述当前语句相邻的上一句均为断句;将所述当前语句与所述上一句相结合作为完整语句。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:建立断句识别模型的步骤,包括:获取问题语料库,其中,所述问题语料库包括多个问题语料,所述问题语料为完整语句;对各所述问题语料分词生成多个断句;根据所述断句中包含词的数目以及该断句对应的完整语句包含词的数目,确定各所述断句的分值,其中,所述分值用于表征与之对应的断句为完整语句的概率;确定各所述断句的所述汉语言模型对应的概率和循环神经网络语言模型对应的概率;以各所述断句的所述概率以及该断句的分值为训练样本,训练得到所述断句识别模型。4.根据权利要求3所述的方法,其特征在于,所述对各所述问题语料分词生成多个断句,包括:生成所述断句的步骤,包括:对第一问题语料进行分词处理,获取由n个词组成的第一问题语料,其中,所述第一问题语料为所述问题语料库中的任一问题语料,n为自然数;在所述第一问题语料中取第1~i个词,生成第i个语句,其中,1≤i≤n;生成所述第一问题语料对应的n个断句;基于所述生成所述断句的步骤,生成所述问题语料库中各所述第一问题语料对应的断句。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述第一概率小于或等于预设的第一阈值,则确定所述当前语句为断句;生成提示用户继续输入的提示信息。6.一种人机智能问答系统的断句识别装置,其特征在于,所述装置包括:当前语句接收模块,配置用于接收用户输入的当前语句;第一概率获取模块,配置用于将所述当...

【专利技术属性】
技术研发人员:姜文
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1