一种实体识别方法及装置制造方法及图纸

技术编号:27309635 阅读:20 留言:0更新日期:2021-02-10 09:30
本发明专利技术公开了一种实体识别方法及装置,该方法包括:接收待处理语音;通过与当前场景匹配的第一模型对所述待处理语音进行识别,得到能够示出所述待处理语音为实体或非实体的第一识别结果;在所述第一识别结果示出所述待处理语音为非实体时,通过第二模型对所述待处理语音进行识别,得到第二识别结果。由此,采用与当前场景匹配的第一模型,并充分利用第一模型和第二模型的优点,极大的提高了实体识别的准确率,使得利用待处理语音的实体识别结果进行NAQ识别时,具有更为准确的判断结果,显著提升当前场景下的NAQ识别结果。当前场景下的NAQ识别结果。当前场景下的NAQ识别结果。

【技术实现步骤摘要】
一种实体识别方法及装置


[0001]本专利技术涉及信息处理领域,尤其涉及一种实体识别方法及装置。

技术介绍

[0002]自然语义理解(NLU,Natural Language Understanding)是对话系统的重要组成部分,主要包括领域识别、意图识别和槽位填充等三大模块。领域识别模块主要用来判断对话的领域类别,比如天气查询、火车票购买、查餐厅等等。NAQ(Not A Query,垃圾查询)用于对非正常的query进行识别,需要对实体领域有比较准确的识别。其中,单个实体的query是否属于非正常的query是一个比较关键的问题,例如:一个query中仅有一个人名或地名等。目前,实体识别主要利用序列标注思想,其主要关注命名实体的识别,并不关注单个实体的识别。但是,在实际应用过程中,例如:对话系统,实体的类别是多种多样的,包括多个单个实体,如果不能对单个实体进行有效识别,会大大降低用户体验,无法满足对话系统的需求。

技术实现思路

[0003]本专利技术实施例为了解决实体识别过程中存在的上述问题,创造性地提供一种实体识别方法、装置及计算机可读存储介质。
[0004]根据本专利技术第一方面,提供了一种实体识别方法,该方法包括:接收待处理语音;通过与当前场景匹配的第一模型对所述待处理语音进行识别,得到能够示出所述待处理语音为实体或非实体的第一识别结果;在所述第一识别结果示出所述待处理语音为非实体时,通过第二模型对所述待处理语音进行识别,得到第二识别结果。
[0005]根据本专利技术一实施方式,所述第二模型采用以下算法至少之一进行训练:最大熵算法ME和支持向量机算法SVM。
[0006]根据本专利技术一实施方式,所述第一模型采用以下操作步骤进行训练:获取针对当前场景的语料;对所述语料进行切分,并对切分后的语料进行适用于当前场景的实体类型标注;根据所述语料和标注结果,生成多个正则表达式;确定所述当前场景下每一所述正则表达式的优先级;将优先级排序在设定范围的正则表达式组成规则集合作为所述第一模型。
[0007]根据本专利技术一实施方式,所述通过与当前应用场景匹配的第一模型,对所述待处理语音进行识别,包括:抽取所述待处理语音中所包括的实体;按照所述规则集合中的正则表达式的优先级,依次对所述实体进行实体类型匹配,得到所述第一识别结果。
[0008]根据本专利技术一实施方式,所述按照所述规则集合中的正则表达式的优先级,依次对所述实体进行实体类型匹配,得到所述第一识别结果,包括:在所述实体能够与所述规则集合中的至少一个正则表达式匹配成功,得到所述实体的实体类型时,确定所述第一识别结果示出所述待处理语音为实体;反之,则确定所述第一识别结果示出所述待处理语音为非实体。
[0009]根据本专利技术实施例第二方面,还提供了一种实体识别装置,所述装置包括:接收模块,用于接收待处理语音;第一识别模块,用于通过与当前场景匹配的第一模型,对所述待处理语音进行识别,得到能够示出所述待处理语音该识别结果为实体或非实体的第一识别结果;第二识别模块,用于在所述第一识别结果示出所述待处理语音为非实体时,通过第二模型对所述待处理语音进行识别,得到第二识别结果。
[0010]根据本专利技术一实施方式,所述第二模型采用以下算法至少之一进行训练:最大熵算法ME和支持向量机算法SVM。
[0011]根据本专利技术一实施方式,所述第一模型采用以下操作步骤进行训练:获取针对当前场景的语料;对所述语料进行切分,并对切分后的语料进行适用于当前场景的实体类型标注;根据所述语料和标注结果,生成多个正则表达式;确定所述当前场景下每一所述正则表达式的优先级;将优先级排序在设定范围的正则表达式组成规则集合作为所述第一模型。
[0012]根据本专利技术一实施方式,所述第一识别模块包括:实体抽取子模块,用于抽取所述待处理语音中所包括的实体;匹配子模块,用于按照所述规则集合中的正则表达式的优先级,依次对所述实体进行实体类型匹配,得到所述第一识别结果。
[0013]根据本专利技术一实施方式,所述匹配子模块在所述实体能够与所述规则集合中的至少一个正则表达式匹配成功,得到所述实体的实体类型时,确定所述第一识别结果示出所述待处理语音为实体;反之,则确定所述第一识别结果示出所述待处理语音为非实体。
[0014]根据本专利技术第三方面,又提供了一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行上述任意所述实体识别方法。
[0015]本专利技术实施例实体识别方法、装置及计算机可读存储介质,首先利用与当前场景匹配的第一模型对所述待处理语音进行识别,得到能够示出待处理语音为实体或非实体的第一识别结果;在第一识别结果示出待处理语音为非实体时,通过第二模型对所述待处理语音进行识别,得到第二识别结果。由此,采用与当前场景匹配的第一模型,并充分利用第一模型和第二模型的优点,极大的提高了实体识别的准确率,使得利用待处理语音的实体识别结果进行NAQ识别时,具有更为准确的判断结果,显著提升当前场景下的NAQ识别结果。
[0016]需要理解的是,本专利技术的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本专利技术的其他实施方式还能够实现上面未提到的有益效果。
附图说明
[0017]通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若干实施方式,其中:
[0018]在附图中,相同或对应的标号表示相同或对应的部分。
[0019]图1示出了本专利技术实施例实体识别方法的实现流程示意图;
[0020]图2示出了本专利技术实施例实体识别装置的组成结构示意图。
具体实施方式
[0021]下面将参考若干示例性实施方式来描述本专利技术的原理和精神。应当理解,给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本专利技术,而并非以任何方式限制本专利技术的范围。相反,提供这些实施方式是为使本专利技术更加透彻和完整,并能够将本专利技术的范围完整地传达给本领域的技术人员。
[0022]首先对本专利技术实施例的主要应用场景进行简单说明,本专利技术可以应用于车载对话领域。在车载对话系统中,包括听歌、导航、打电话、订酒店、查餐厅、查火车票、查天气等很多功能。在车辆当前处于打电话模式时,若车载对话系统接收到一个query的内容为人名,则该人名为一个实体,需要对该实体进行响应,但是若当前处于导航模式,车载对话系统接收到一个query的内容为人名,则该人名对于当前场景来说就是一个NAQ(Not A Query,非实体),可能是车内司乘人员的正常对话被车载对话系统所捕捉,此时不需要对该query进行响应。本专利技术实施例就是为了结合当前场景对所接收到的query所属的领域进行更为准确地判断,从而对该query是否为NAQ进行更为准确地判断,进而确定是否对该query进行响应,以有效提升用户体验。
[0023]下面结合附图和具体实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体识别方法,其特征在于,所述方法包括:接收待处理语音;通过与当前场景匹配的第一模型对所述待处理语音进行识别,得到能够示出所述待处理语音为实体或非实体的第一识别结果;在所述第一识别结果示出所述待处理语音为非实体时,通过第二模型对所述待处理语音进行识别,得到第二识别结果。2.根据权利要求1所述的方法,其特征在于,所述第二模型采用以下算法至少之一进行训练:最大熵算法ME和支持向量机算法SVM。3.根据权利要求1所述的方法,其特征在于,所述第一模型采用以下操作步骤进行训练:获取针对当前场景的语料;对所述语料进行切分,并对切分后的语料进行适用于当前场景的实体类型标注;根据所述语料和标注结果,生成多个正则表达式;确定所述当前场景下每一所述正则表达式的优先级;将优先级排序在设定范围的正则表达式组成规则集合作为所述第一模型。4.根据权利要求3所述的方法,其特征在于,所述通过与当前应用场景匹配的第一模型,对所述待处理语音进行识别,包括:抽取所述待处理语音中所包括的实体;按照所述规则集合中的正则表达式的优先级,依次对所述实体进行实体类型匹配,得到所述第一识别结果。5.根据权利要求4所述的方法,其特征在于,所述按照所述规则集合中的正则表达式的优先级,依次对所述实体进行实体类型匹配,得到所述第一识别结果,包括:在所述实体能够与所述规则集合中的至少一个正则表达式匹配成功,得到所述实体的实体类型时,确定所述第一识别结果示出所述待处理语音为实体;反之,则确定所述第一识别结果示出所述待处理语音为非...

【专利技术属性】
技术研发人员:夏林旭雷欣李志飞
申请(专利权)人:出门问问苏州信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1