一种结合上下文信息的对话系统主题识别方法及装置制造方法及图纸

技术编号：34286578 阅读：57 留言：0更新日期：2022-07-27 08:30

本发明专利技术公开了一种结合上下文信息的对话系统主题识别方法及装置，通过获取主题数据集，根据主题数据集中多个句子的主题与句子中每个类别的实体之间的关系构建槽位库，槽位库中每行槽位包括不同的主题与其对应的不同类别的每个实体；将待识别对话的当前句子输入经训练的单句主题识别模型，预测出第一主题以及对应的预测概率值；识别出当前句子及其之前的所有句子的所有实体，并根据所有实体及其类别建立对话槽位表；响应于对话槽位表在槽位库中匹配成功的次数，确定当前句子的第二主题及其对应的匹配概率值；响应于预测概率值与匹配概率值中数值较大的其中一个所对应主题为第一主题或第二主题，确定为当前句子的主题，并且能够避免上下文信息丢失。能够避免上下文信息丢失。能够避免上下文信息丢失。

全部详细技术资料下载

【技术实现步骤摘要】
一种结合上下文信息的对话系统主题识别方法及装置

[0001]本专利技术涉及主题识别领域，具体涉及一种结合上下文信息的对话系统主题识别方法及装置。

技术介绍

[0002]人机对话系统是语音识别技术走向实用的一个重要的应用，人机对话系统可以实现通过计算机识别人通过自然语音所表达的思想。主题识别是对话系统中一个重要的部分，其主要功能是利用各种机器学习和深度学习方法，针对输入的句子进行识别和分类，甄别出其在既定主题类别中的具体分类，从而判断出当前句子的具体主题。主题识别常用判别模型或生成模型等dnn、卷积神经网络、双向lstm等。
[0003]一般主题识别仅针对当前句子信息进行识别，一方面容易造成信息丢失，另一方面由于模型的黑盒性质可能存在错误跳转。例如在医疗对话中，如访客上文询问“可以做A项目吗”被正确识别为A主题，之后的聊天中如果没有明显提及A主题的信息或者描述一些同时存在于A主题与其他主题共有的信息时，就可能出现未识别或者错误识别。传统的主题识别只能针对单个句子进行识别，而忽略上下文信息所包含的主题信息，因此导致主题识别正确率不高，识别效果不好。
[0004]有鉴于此，提出一种能够结合上下文信息的主题识别方法是亟需解决的重要问题之一。

技术实现思路

[0005]针对上述提到的单个句子的主题识别准确度低等问题。本申请的实施例的目的在于提出了一种结合上下文信息的对话系统主题识别方法及装置，来解决以上
技术介绍
部分提到的技术问题。
[0006]第一方面，本申请的实施例提供了一种结合上下文...

【技术保护点】

【技术特征摘要】
1.一种结合上下文信息的对话系统主题识别方法，其特征在于，包括以下步骤：S1，获取主题数据集，根据所述主题数据集中每个句子的主题与句子中每个类别的实体之间的关系构建具有多行槽位的槽位库；S2，将对话系统中的待识别对话的当前句子进行预处理后输入经训练的单句主题识别模型，预测出所述当前句子的第一主题及其对应的预测概率值；S3，识别出所述当前句子及其之前的所有句子的所有实体，并根据所述当前句子的所有实体及其类别建立对话槽位表，所述槽位库中的实体类别包括所述对话槽位表中的实体类别；S4，响应于所述对话槽位表在所述槽位库中匹配成功的次数，确定所述当前句子的第二主题及其对应的匹配概率值；S5，响应于所述预测概率值与所述匹配概率值中数值较大的其中一个所对应主题为第一主题或第二主题，确定为所述当前句子的主题。2.根据权利要求1所述的结合上下文信息的对话系统主题识别方法，其特征在于，所述步骤S1中根据所述主题数据集中每个句子的主题与句子中每个类别的实体之间的关系构建具有多行槽位的槽位库，具体包括：S11，采用命名实体识别对所述主题数据集中的每个句子的实体进行识别；S12，根据每个句子的主题与识别出的每个类别的实体得到槽位库中的每行槽位；S13，重复步骤S11
‑
S12，得到所述主题数据集中多个句子对应的槽位库。3.根据权利要求1所述的结合上下文信息的对话系统主题识别方法，其特征在于，所述对话系统中的每个句子的预处理过程具体包括：采用结巴分词对每个句子进行分词，得到每个句子中的至少一个单词；采用Word2vec对每个单词进行处理，得到词向量嵌入表示；将每个句子的所述词向量嵌入表示进行拼接，得到合并矩阵。4.根据权利要求3所述的结合上下文信息的对话系统主题识别方法，其特征在于，所述单句主题识别模型为基于机器学习的文本分类模型，所述单句主题识别模型至少包括全连接层和softmax层。5.根据权利要求4所述的结合上下文信息的对话系统主题识别方法，其特征在于，所述单句主题识别模型的训练过程包括：将所述主题数据集中的每个句子进行预处理，得到合并矩阵；采用独热编码将所述主题数据集中的主题编码为1*n维度的第一向量；将所述合并矩阵输入全连接层和softmax层，得到第二向量；计算所述第二向量与所述第一向量的交叉熵损失函数，逐步迭代优化所述单句主题识别模型的参数。6.根据权利要求1所述的结合上下文信息的对话系统主题识别方法，其特征在于，所述步骤S4还包括：S41，判断所述对话槽位表是否为空，若是，则直接将第一主题作为所述当前句子...

【专利技术属性】
技术研发人员：黄友福，肖龙源，李稀敏，李威，
申请(专利权)人：厦门快商通科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人