文本意图识别方法、装置、设备及存储介质制造方法及图纸

技术编号：29789929 阅读：17 留言：0更新日期：2021-08-24 18:08

本发明专利技术涉及人工智能领域，公开了一种文本意图识别方法、装置、设备及存储介质，用于提高多音字文本的检出率，从而提升文本意图识别的准确性。文本意图识别方法包括：获取初始文本，对初始文本进行预处理，得到预处理后的文本；对预处理后的文本进行分词处理，将分词文本转换为目标索引项，并进行向量化处理，得到初始向量；调用预置的序列到序列模型，基于注意力机制对初始向量进行编码和解码处理，得到初始拼音序列；对初始拼音序列进行词嵌入处理，得到目标拼音序列，将目标拼音序列与预置的语料库进行匹配，得到匹配结果，根据匹配结果确定目标用户意图。此外，本发明专利技术还涉及区块链技术，目标用户意图可存储于区块链节点中。

全部详细技术资料下载

【技术实现步骤摘要】
文本意图识别方法、装置、设备及存储介质
本专利技术涉及神经网络领域，尤其涉及一种文本意图识别方法、装置、设备及存储介质。
技术介绍
随着互联网技术的迅速发展，文本数据的数量迅速增长，如何从这些文本数据中抽取有用的信息，解决信息过载问题，已成为当前的一个迫切需求，关键词识别和抽取作为文本挖掘中一项重要的技术，是信息检索、文本分类以及推荐系统等方面的重要一环。中文字的发音在整个文本的识别过程中也有着重要的地位，中文的发音常被用于隐晦的代表一些关键词，进而避开系统的检测，现有的文本识别技术基于拼音字典进行中文字的转换，但大多没有考虑到一些多音字的情况，导致文本意图识别的准确性低下。
技术实现思路
本专利技术提供了一种文本意图识别方法、装置、设备及存储介质，用于通过调用预置的序列到序列模型的编码器，基于注意力机制对初始向量进行编码处理，得到编码向量，调用预置的序列到序列模型的解码器，对编码向量进行解码处理，得到初始拼音序列，提高了多音字文本的检出率，从而提升了文本意图识别的准确性。本专利技术第一方面提供了一种文本意图识别方法，包括：获取初始文本，对所述初始文本进行预处理，得到预处理后的文本，所述初始文本包括用户输入的句子和/或词语；对所述预处理后的文本进行分词处理，得到分词文本，将所述分词文本转换为目标索引项，并对所述目标索引项进行向量化处理，得到初始向量；调用预置的序列到序列模型中的编码器，基于注意力机制对所述初始向量进行编码处理，得到编码向量，调用所述序列到序列模型中的解码器，对所述编...

【技术保护点】
1.一种文本意图识别方法，其特征在于，所述文本意图识别方法包括：/n获取初始文本，对所述初始文本进行预处理，得到预处理后的文本，所述初始文本包括用户输入的句子和/或词语；/n对所述预处理后的文本进行分词处理，得到分词文本，将所述分词文本转换为目标索引项，并对所述目标索引项进行向量化处理，得到初始向量；/n调用预置的序列到序列模型中的编码器，基于注意力机制对所述初始向量进行编码处理，得到编码向量，调用所述序列到序列模型中的解码器，对所述编码向量进行解码处理，得到初始拼音序列，所述初始拼音序列包括多音字文本对应的拼音序列；/n对所述初始拼音序列进行词嵌入处理，得到目标拼音序列，将所述目标拼音序列与预置的语料库进行匹配，得到匹配结果，根据所述匹配结果确定目标用户意图。/n

【技术特征摘要】
1.一种文本意图识别方法，其特征在于，所述文本意图识别方法包括：
获取初始文本，对所述初始文本进行预处理，得到预处理后的文本，所述初始文本包括用户输入的句子和/或词语；
对所述预处理后的文本进行分词处理，得到分词文本，将所述分词文本转换为目标索引项，并对所述目标索引项进行向量化处理，得到初始向量；
调用预置的序列到序列模型中的编码器，基于注意力机制对所述初始向量进行编码处理，得到编码向量，调用所述序列到序列模型中的解码器，对所述编码向量进行解码处理，得到初始拼音序列，所述初始拼音序列包括多音字文本对应的拼音序列；
对所述初始拼音序列进行词嵌入处理，得到目标拼音序列，将所述目标拼音序列与预置的语料库进行匹配，得到匹配结果，根据所述匹配结果确定目标用户意图。

2.根据权利要求1所述的文本意图识别方法，其特征在于，所述获取初始文本，对所述初始文本进行预处理，得到预处理后的文本，所述初始文本包括用户输入的句子和/或词语包括：
接收用户请求，将所述用户请求存入预置的卡夫卡消息队列并进行异步处理，得到初始文本，所述初始文本包括用户输入的句子和/或词语；
采用正则表达式删除所述初始文本中的空格和特殊符号，并调用预置的数据分析工具包查找并删除所述初始文本中的重复值，得到预处理后的文本。

3.根据权利要求1所述的文本意图识别方法，其特征在于，所述对所述预处理后的文本进行分词处理，得到分词文本，将所述分词文本转换为目标索引项，并对所述目标索引项进行向量化处理，得到初始向量包括：
调用预置的文本分词工具，对所述预处理后的文本进行分词处理，得到分词文本；
将所述分词文本中的每一个单词与预置的索引词典进行匹配，得到目标索引项，所述目标索引项包括每一个单词对应的索引项，每一个单词对应唯一的一个索引项；
调用预置的文本向量化算法，对所述目标索引项进行词嵌入，得到词向量，对所述词向量进行拼接处理，得到初始向量。

4.根据权利要求1所述的文本意图识别方法，其特征在于，所述调用预置的序列到序列模型中的编码器，基于注意力机制对所述初始向量进行编码处理，得到编码向量，调用所述序列到序列模型中的解码器，对所述编码向量进行解码处理，得到初始拼音序列，所述初始拼音序列包括多音字文本对应的拼音序列包括：
调用预置的序列到序列模型中的编码器，基于预设的循环神经网络，对所述初始向量进行编码运算，得到多个编码隐藏状态，通过所述编码器中的归一化指数层，对所述多个编码隐藏状态进行基于注意力机制的归一化处理，得到编码向量；
调用所述序列到序列模型中的解码器，基于预设的循环神经网络，对所述编码向量进行解码运算，得到多个解码隐藏状态，通过所述解码器中的归一化指数层，对所述多个解码隐藏状态进行基于注意力机制的归一化处理，得到初始拼音序列，所述初始拼音序列包括多音字文本对应的拼音序列。

5.根据权利要求4所述的文本意图识别方法，其特征在于，所述调用预置的序列到序列模型中的编码器，基于预设的循环神经网络，对所述初始向量进行编码运算，得到多个编码隐藏状态，通过所述编码器中的归一化指数层，对所述多个编码隐藏状态进行基于注意力机制的归一化处理，得到编码向量包括：
调用预置的序列到序列模型中的编码器，基于预设的循环神经网络，对所述初始向量进...

【专利技术属性】
技术研发人员：蒋佳惟，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人