一种实体识别方法及装置制造方法及图纸

技术编号：27309635 阅读：20 留言：0更新日期：2021-02-10 09:30

本发明专利技术公开了一种实体识别方法及装置，该方法包括：接收待处理语音；通过与当前场景匹配的第一模型对所述待处理语音进行识别，得到能够示出所述待处理语音为实体或非实体的第一识别结果；在所述第一识别结果示出所述待处理语音为非实体时，通过第二模型对所述待处理语音进行识别，得到第二识别结果。由此，采用与当前场景匹配的第一模型，并充分利用第一模型和第二模型的优点，极大的提高了实体识别的准确率，使得利用待处理语音的实体识别结果进行NAQ识别时，具有更为准确的判断结果，显著提升当前场景下的NAQ识别结果。当前场景下的NAQ识别结果。当前场景下的NAQ识别结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种实体识别方法及装置

[0001]本专利技术涉及信息处理领域，尤其涉及一种实体识别方法及装置。

技术介绍

[0002]自然语义理解(NLU，Natural Language Understanding)是对话系统的重要组成部分，主要包括领域识别、意图识别和槽位填充等三大模块。领域识别模块主要用来判断对话的领域类别，比如天气查询、火车票购买、查餐厅等等。NAQ(Not A Query，垃圾查询)用于对非正常的query进行识别，需要对实体领域有比较准确的识别。其中，单个实体的query是否属于非正常的query是一个比较关键的问题，例如：一个query中仅有一个人名或地名等。目前，实体识别主要利用序列标注思想，其主要关注命名实体的识别，并不关注单个实体的识别。但是，在实际应用过程中，例如：对话系统，实体的类别是多种多样的，包括多个单个实体，如果不能对单个实体进行有效识别，会大大降低用户体验，无法满足对话系统的需求。

技术实现思路

[0003]本专利技术实施例为了解决实体识别过程中存在的上述问题，创造性地提供一种实体识别方法、装置及计算机可读存储介质。
[0004]根据本专利技术第一方面，提供了一种实体识别方法，该方法包括：接收待处理语音；通过与当前场景匹配的第一模型对所述待处理语音进行识别，得到能够示出所述待处理语音为实体或非实体的第一识别结果；在所述第一识别结果示出所述待处理语音为非实体时，通过第二模型对所述待处理语音进行识别，得到第二识别结果。
[0005]根据本专利技术一实施方式...

【技术保护点】

【技术特征摘要】
1.一种实体识别方法，其特征在于，所述方法包括：接收待处理语音；通过与当前场景匹配的第一模型对所述待处理语音进行识别，得到能够示出所述待处理语音为实体或非实体的第一识别结果；在所述第一识别结果示出所述待处理语音为非实体时，通过第二模型对所述待处理语音进行识别，得到第二识别结果。2.根据权利要求1所述的方法，其特征在于，所述第二模型采用以下算法至少之一进行训练：最大熵算法ME和支持向量机算法SVM。3.根据权利要求1所述的方法，其特征在于，所述第一模型采用以下操作步骤进行训练：获取针对当前场景的语料；对所述语料进行切分，并对切分后的语料进行适用于当前场景的实体类型标注；根据所述语料和标注结果，生成多个正则表达式；确定所述当前场景下每一所述正则表达式的优先级；将优先级排序在设定范围的正则表达式组成规则集合作为所述第一模型。4.根据权利要求3所述的方法，其特征在于，所述通过与当前应用场景匹配的第一模型，对所述待处理语音进行识别，包括：抽取所述待处理语音中所包括的实体；按照所述规则集合中的正则表达式的优先级，依次对所述实体进行实体类型匹配，得到所述第一识别结果。5.根据权利要求4所述的方法，其特征在于，所述按照所述规则集合中的正则表达式的优先级，依次对所述实体进行实体类型匹配，得到所述第一识别结果，包括：在所述实体能够与所述规则集合中的至少一个正则表达式匹配成功，得到所述实体的实体类型时，确定所述第一识别结果示出所述待处理语音为实体；反之，则确定所述第一识别结果示出所述待处理语音为非...

【专利技术属性】
技术研发人员：夏林旭，雷欣，李志飞，
申请(专利权)人：出门问问苏州信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人