面向场景的中文指令识别方法、装置、设备和存储介质制造方法及图纸

技术编号:16876280 阅读:113 留言:0更新日期:2017-12-23 13:35
本发明专利技术提供了一种面向场景的中文指令识别方法、装置、设备和存储介质,其中,面向场景的中文指令识别方法,包括:根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重,其中,错分样本为预测类标识与实际类标识不匹配的测试样本。通过本发明专利技术的技术方案,用包括错分样本的样本集训练修正每个预测模型的预测权重,有效提高了中文指令识别的准确率,而且通过场景预判,有效节省了后台计算资源,提高了中文指令识别的智能化水平。

Scene oriented Chinese instruction recognition methods, devices, devices, and storage media

The invention provides a Scenario Oriented method, Chinese instruction recognition device, device and storage medium, which includes Chinese instruction recognition method, including scene oriented: according to misclassification sample sets and the first predetermined formula, the right to modify the prediction model for each prediction, the misclassified samples for prediction of test samples class identification and identification does not match the actual class. Through the technical scheme of the invention, including the wrong sample sets training each prediction model forecast weight correction, effectively improve the accuracy of Chinese instruction recognition, but also through the scene of anticipation, effectively saving the background computing resources, improve the intelligence level Chinese command recognition.

【技术实现步骤摘要】
面向场景的中文指令识别方法、装置、设备和存储介质
本专利技术涉及人机智能交互
,具体而言,涉及一种面向场景的中文指令识别方法、一种面向场景的中文指令识别装置、一种计算机设备和一种计算机可读存储介质。
技术介绍
现代智能问答系统一般包含语音识别、文本解析、句法分析、语义分析、主题识别、解析应答等多个技术环节,其中句法分析中的面向场景的中文指令识别(主要是疑问句句式识别)充当了整个智能问答系统的门户验证功能。相关技术中,句法分析中的面向场景的中文指令识别主要通过疑问词规则模式匹配、转换生成句法分析两大类方法来实现,存在以下技术缺陷:(1)疑问词规则模式匹配,需要十分庞杂且难以穷举所有疑问词表,而且对中文指令的理解比较粗浅,识别的准确率较低。(2)转换生成句法分析,需要预先建立相应的词库集和事先制定句法模式,需要过多的人工干预,智能化程度较低。
技术实现思路
本专利技术旨在至少解决现有技术或相关技术中存在的技术问题之一。为此,本专利技术的一个目的在于提供一种面向场景的中文指令识别方法。本专利技术的另一个目的在于提供一种面向场景的中文指令识别装置。本专利技术的再一个目的在于提供一种计算机设备。本专利技术的又一个目的在于提供一种计算机可读存储介质。为了实现上述目的,本专利技术的第一方面的技术方案提供了一种面向场景的中文指令识别方法,包括:根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重,其中,错分样本为预测类标识与实际类标识不匹配的测试样本。在该技术方案中,通过根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重,实现了用预测类标识与实际类标识不匹配的测试样本来修正每个预测模型的预测权重,可以有效训练预测模型,提高预测的准确率,进而有效提高中文指令识别的准确率,而且在测试样本的预测类标识与实际类标识不匹配时,就会被标记为错分样本,同时提高错分样本的概率,使得错分样本能够优先被抽取,作为修正每个预测模型的预测权重的样本集,也使得错分样本能够优先被抽取,作为新的测试样本,一定程度上减少了人工干预,提高了预测模型训练的智能化水平,同时也提高了中文指令识别的智能化水平。另外,包括错分样本的样本集可以是全部为错分样本的样本集,也可以是一部分为错分样本、一部分为预测正确的样本的样本集,样本集的数量要较大,以便达到修正每个预测模型的预测权重的目的。在上述技术方案中,优选地,根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重,具体包括:根据包括错分样本的样本集,交叉验证每个预测模型,以确定每个预测模型的预测精度;根据第一预设公式和预测精度,修正每个预测模型的预测权重,其中,第一预设公式包括:ωi表征为第i个预测模型的预测权重,pi表征为第i个预测模型的预测精度,表征为所有预测模型的预测精度之和。在该技术方案中,通过用包括错分样本的样本集,交叉验证每个预测模型,来确定每个预测模型的预测精度,具体地,可以采用10折交叉验证法,即将包括错分样本的样本集分为10份,9份作为训练数据,1份作为测试数据,进行试验,每次试验都会得出相应的正确率,将10次结果的正确率的平均值作为对预测模型的预测精度,一般还会进行多次10折交叉验证,比如10次,然后求均值,以提高预测模型的预测精度确定的准确性。通过第一预设公式和预测精度,来计算每个预测模型的预测权重,以得到修正的每个预测模型的预测权重,提高了每个预测模型的预测权重的确定的准确性,进一步提高了中文指令识别的准确率。在上述任一项技术方案中,优选地,在根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重之前,还包括:根据每个预测模型的预测权重和第二预设公式,确定测试样本的预测类标识;若测试样本的实际类标识与预测类标识不匹配,则确定测试样本为错分样本;提高错分样本的抽样概率,以抽取包括错分样本的样本集和以抽取错分样本作为新的测试样本,其中,第二预设公式包括:pred=Max(ωi·nj)ωi表征为第i个预测模型的预测权重,nj表征为第j个类标识在所有预测模型中出现的次数,pred表征为Max(ωi·nj)对应的类标识,即预测类标识。在该技术方案中,通过根据每个预测模型的预测权重和第二预设公式,来确定测试样本的预测类标识,并将预测类标识和实际类标识不匹配的测试样本标记为错分样本,实现了对预测模型的测试,有利于对预测模型的下一步的训练,通过提高错分样本的概率,使得错分样本能够优先被抽取,作为修正每个预测模型的预测权重的样本集,也使得错分样本能够优先被抽取,作为新的测试样本,一定程度上减少了人工干预,提高了预测模型训练的智能化水平,有利于进一步提高中文指令识别的准确率。在上述任一项技术方案中,优选地,在根据每个预测模型的预设权重和第二预设公式,确定测试样本的预测类标识之前,还包括:确定测试样本中是否包括与预设场景词汇库相匹配的词汇;若确定测试样本中不包括与预设场景词汇库相匹配的词汇,则发出提示信号,并不进行测试样本的预测类标识的确定;若确定测试样本中包括与预设场景词汇库相匹配的词汇,则以预设场景词汇库中相匹配的词汇替换测试样本中对应的词汇,并进行测试样本的预测类标识的确定。在该技术方案中,通过在确定测试样本的预测类标识之前,确定测试样本中是否包括与预设场景词汇库相匹配的词汇,实现了场景的预判,使得中文指令识别面向场景,比较有针对性,可以有效节省后台的计算资源,如果确定测试样本中不包括与预设场景词汇库相匹配的词汇,则发出提示信号,并不进行测试样本的预测类标识的确定,可以将不相关的测试样本过滤掉,进一步有效节省后台的计算资源,通过在确定测试样本中包括与预设场景词汇库相匹配的词汇时,以预设场景词汇库中相匹配的词汇替换测试样本中对应的词汇,并进行测试样本的预测类标识的确定,提高了进入预测模型的测试样本的标准化程度,有利于预测模型输出与实际类标识相匹配的预测类标识,进一步提高了中文指令识别的准确度。比如将场景设为厨房场景,那么预设场景词汇库中,就可以包括以下词汇:第一类常用食材(界定选取了苹果、芹菜、土豆等450种常用食材及其同义);第二类常用食谱(界定选取了酸菜鱼、鱼香肉丝等10000种常用食谱及其同义);第三类口味风味(包含酸、辣、淡等多个子类及其同义);第四类季节时令(包含端午节、情人节等多个子类及其同义);第五类营养功效(包含减肥、失眠、瘦身等多个子类及其同义);第六类特殊人群(包含司机、教师、考生等多个子类及其同义);第七类疾病调理(包含高血压、感冒、牙痛等多个子类及其同义);第八类美容瘦身(包含美白、祛痘、祛斑等多个子类及其同义);第九类菜式菜品(包含小吃、烧烤、宵夜等多个子类及其同义);第十类情景场景(包含单身、下午茶、升迁等多个子类及其同义)。在上述任一项技术方案中,优选地,提高错分样本的抽样概率,具体包括:根据第三预设公式,重新确定错分样本的抽样概率,其中,第三预设公式包括:yk表征为测试样本k的实际类标识,h(k)表征为测试样本k的预测类标识,Wk+1表征为重新确定的错分样本k的抽样概率,∑(yk≠h(k))表征为所有错分样本的总数。在该技术方案中,通过第三预设公式,重新确定错分样本的抽样概率,实现了以一定的规则提高错分样本的抽样概率,有利于抽取包本文档来自技高网...
面向场景的中文指令识别方法、装置、设备和存储介质

【技术保护点】
一种面向场景的中文指令识别方法,其特征在于,包括:根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重,其中,所述错分样本为预测类标识与实际类标识不匹配的测试样本。

【技术特征摘要】
1.一种面向场景的中文指令识别方法,其特征在于,包括:根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重,其中,所述错分样本为预测类标识与实际类标识不匹配的测试样本。2.根据权利要求1所述的面向场景的中文指令识别方法,其特征在于,所述根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重,具体包括:根据所述包括错分样本的样本集,交叉验证所述每个预测模型,以确定所述每个预测模型的预测精度;根据所述第一预设公式和所述预测精度,修正所述每个预测模型的预测权重,其中,所述第一预设公式包括:ωi表征为第i个预测模型的预测权重,pi表征为所述第i个预测模型的预测精度,表征为所有预测模型的预测精度之和。3.根据权利要求1所述的面向场景的中文指令识别方法,其特征在于,在所述根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重之前,还包括:根据所述每个预测模型的预测权重和第二预设公式,确定测试样本的预测类标识;若所述测试样本的实际类标识与所述预测类标识不匹配,则确定所述测试样本为所述错分样本;提高所述错分样本的抽样概率,以抽取所述包括错分样本的样本集和以抽取所述错分样本作为新的测试样本,其中,所述第二预设公式包括:pred=Max(ωi·nj)ωi表征为第i个预测模型的预测权重,nj表征为第j个类标识在所有预测模型中出现的次数,pred表征为Max(ωi·nj)对应的类标识,即所述预测类标识。4.根据权利要求3所述的面向场景的中文指令识别方法,其特征在于,在所述根据所述每个预测模型的预设权重和第二预设公式,确定测试样本的预测类标识之前,还包括:确定所述测试样本中是否包括与预设场景词汇库相匹配的词汇;若确定所述测试样本中不包括与所述预设场景词汇库相匹配的词汇,则发出提示信号,并不进行所述测试样本的预测类标识的确定;若确定所述测试样本中包括与所述预设场景词汇库相匹配的词汇,则以所述预设场景词汇库中相匹配的词汇替换所述测试样本中对应的词汇,并进行所述测试样本的预测类标识的确定。5.根据权利要求3所述的面向场景的中文指令识别方法,其特征在于,所述提高所述错分样本的抽样概率,具体包括:根据第三预设公式,重新确定所述错分样本的抽样概率,其中,所述第三预设公式包括:yk表征为测试样本k的实际类标识,h(k)表征为所述测试样本k的预测类标识,Wk+1表征为重新确定的错分样本k的抽样概率,∑(yk≠h(k))表征为所有错分样本的总数。6.根据权利要求1所述的面向场景的中文指令识别方法,其特征在于,在所述根据包括错分样本的样本集和第一预设公式,修正每个预测模型的预测权重之前,还包括:基于预设规则,根据预设语料库,构建所述预测模型,并预设所述每个预测模型的预测权重。7.一种面向场景的中文指令识别装置,其特征在于,包括:修正单元,用于根据包括错分样本的样本...

【专利技术属性】
技术研发人员:闫永刚沈亮
申请(专利权)人:合肥美的智能科技有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1