本发明专利技术适用于计算机领域,提供了一种基于人工智能的自然语言处理方法及系统,所述方法包括:接收目标训练者输入的语音数据,对语音数据进行识别,得到训练文本;将训练文本反馈到训练检测模型中进行确认,得到初始训练文本;基于初始训练文本匹配训练场景信息素材,将训练场景信息素材进行存储;识别训练场景;当识别到训练场景中对待训练者尝试进行训练的训练者不是目标训练者时,基于训练端获取目标训练者的许可后,切换至指导场景模式,本发明专利技术的有益效果在于:通过指导场景模式的切换,能够不会影响目标训练者先前的语音训练效果。能够不会影响目标训练者先前的语音训练效果。能够不会影响目标训练者先前的语音训练效果。
【技术实现步骤摘要】
基于人工智能的自然语言处理方法及系统
[0001]本专利技术属于计算机
,尤其涉及一种基于人工智能的自然语言处理方法及系统。
技术介绍
[0002]自然语言是人类发展过程中形成的一种信息交流的方式,包括口语及书面语,反映了人类的思维,都是以自然语言的形式表达,自然语言处理,简单来说,是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。
[0003]人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括智能机器人、语言识别、图像识别、自然语言处理和专家系统等。
[0004]将自然语言处理应用到语言的训练和学习上,是现有技术中人工智能涉及到的一项突破,但是,在涉及到的训练者和被训练者之间的训练时,当训练者不在场时,被训练者可能会受到外界的干扰,导致训练效果不理想。
技术实现思路
[0005]本专利技术实施例的目的在于提供一种基于人工智能的自然语言处理方法及系统,旨在解决上述
技术介绍
中提出的问题。
[0006]本专利技术实施例是这样实现的,一方面,一种基于人工智能的自然语言处理方法,所述方法包括以下步骤:
[0007]接收目标训练者输入的语音数据,对语音数据进行识别,得到训练文本;
[0008]将训练文本反馈到训练检测模型中进行确认,得到初始训练文本;
[0009]基于初始训练文本匹配训练场景信息素材,将训练场景信息素材进行存储;
[0010]识别训练场景;
[0011]当识别到训练场景中对待训练者尝试进行训练的训练者不是目标训练者时,基于训练端获取目标训练者的许可后,切换至指导场景模式,用以使得当前训练场景中的训练者按照指导操作提示结合训练场景信息素材对待训练者进行训练;
[0012]当识别到训练场景中对待训练者尝试进行训练的训练者是目标训练者时,切换至辅助场景模式,用以使得当前训练场景中目标训练者对待训练者进行训练时优先对训练场景信息素材进行无声播放。
[0013]作为本专利技术的进一步方案,所述接收训练端输入的第一语音数据,对第一语音数据进行识别,得到训练文本具体包括:
[0014]向训练端持续发送语音数据输入提示;
[0015]在预设时长后检测是否存在目标训练者在训练端输入的语音数据;
[0016]若是,则停止向训练端发送语音数据输入提示;
[0017]若否,则向与目标训练者绑定的终端发送语音数据输入提示,直到检测到目标训练者输入的语音数据;
[0018]识别语音数据,基于识别结果得到训练文本。
[0019]作为本专利技术的再进一步方案,所述将训练文本反馈到训练端进行初确认,得到初始训练文本具体包括:
[0020]将训练文本进行划分,得到若干第一训练字/词,将若干训练字/词输入到预先训练好的训练检测模型中进行检测;
[0021]基于检测结果判断是否符合期望阈值,若是,则直接将该训练文本定义为初始训练文本;
[0022]若否,则根据检测结果中显示不符合期望阈值的检测项自动补充训练文本,以使得经过自动补充的训练文本的检测结果符合期望阈值;
[0023]将经过自动补充的训练文本标记为第二优先级训练文本,将未经过自动补充的训练文本标记为第一优先级训练文本,将第一优先级训练文本和第二优先级训练文本进行组合,定义组合后的训练文本为初始训练文本。
[0024]作为本专利技术的进一步方案,所述基于初始训练文本匹配训练场景信息素材,将训练场景信息素材进行存储具体包括:
[0025]判断初始训练文本的类型;
[0026]当判断初始训练文本为第二优先级训练文本,将第二优先级训练文本进行划分,得到若干第二训练字/词,获取第一优先级训练文本对应的若干第一训练字/词,将若干第一训练字/词中至少一个与若干第二训练字/词中至少一个进行排列组合,得到排列组合词/句;
[0027]将排列组合词进行完整性识别筛选,剔除不符合完整词性结构的排列组合词并且进行标记,将经过标记的排列组合词定位于排列组合句中并且剔除排列组合句中包含经过标记的排列组合词的排列组合句;
[0028]基于经过剔除的排列组合词/句在线进行信息素材搜索,所述信息素材包括图片和短视频,基于预设敏感筛选条件对搜索得到的信息素材进行过滤,过滤后的信息素材即为初步训练场景信息素材;
[0029]将初步训练场景信息素材进行备份;
[0030]获取目标训练者的音频数据以替换一个初步场景训练素材中对应的原声数据,得到第一场景训练素材;
[0031]过滤掉其中一个初步场景训练素材中的原声数据,得到第二场景训练素材;
[0032]将第一场景训练素材和第二场景训练素材分别进行保存。
[0033]作为本专利技术的进一步方案,所述基于初始训练文本匹配训练场景信息素材,将训练场景信息素材进行存储具体还包括:
[0034]当判断初始训练文本为原训练文本时,直接获取若干第一训练字/词以及原训练文本中的完整句子,将若干第一训练字/词和完整句子在线进行信息素材搜索,基于预设敏感筛选条件对搜索得到的信息素材进行过滤,过滤后的信息素材即为初步训练场景信息素
材;
[0035]对初步训练场景信息素材相应的进行备份,对备份中一个进行替换原声后保存。
[0036]作为本专利技术的进一步方案,在所述识别训练场景之前,所述方法还包括:
[0037]实时获取以待训练者为中心的音频数据并且提取该音频数据中的声学特征,当提取的该声学特征与目标训练者预先输入的音频数据的声学特征不匹配时或者未获取到任何音频数据,根据预先输入的目标训练者的影像信息检测待训练者正向预设角度范围内是否存在非目标训练者,若是,则获取以待训练者为中心的预设区域范围内的影像数据;
[0038]实时检测以待训练者为中心的音频数据的音量,记录音量大于预设阈值音量的音频数据,将该音频数据和影像数据统一时间轴的部分进行标记,去除影像数据中未经过标记的部分,将剩余影像数据和音频数据进行匹配;
[0039]将匹配的影像数据和音频数据进行保存;
[0040]向与目标训练者所绑定的终端发送经过匹配的影像数据和音频数据的片段。
[0041]作为本专利技术的进一步方案,所述基于训练端获取目标训练者的许可后,切换至指导场景模式具体包括:
[0042]基于终端接收经过匹配的影像数据和音频数据的片段后,发出振动指示;
[0043]获取目标训练者基于终端发送的同意指令后,切换至指导场景模式,调取第一场景训练素材在训练端等待播放;<本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于人工智能的自然语言处理方法,其特征在于,所述方法包括:接收目标训练者输入的语音数据,对语音数据进行识别,得到训练文本;将训练文本反馈到训练检测模型中进行确认,得到初始训练文本;基于初始训练文本匹配训练场景信息素材,将训练场景信息素材进行存储;识别训练场景;当识别到训练场景中对待训练者尝试进行训练的训练者不是目标训练者时,基于训练端获取目标训练者的许可后,切换至指导场景模式,用以使得当前训练场景中的训练者按照指导操作提示结合训练场景信息素材对待训练者进行训练;当识别到训练场景中对待训练者尝试进行训练的训练者是目标训练者时,切换至辅助场景模式,用以使得当前训练场景中目标训练者对待训练者进行训练时优先对训练场景信息素材进行无声播放。2.根据权利要求1所述的基于人工智能的自然语言处理方法,其特征在于,所述接收训练端输入的第一语音数据,对第一语音数据进行识别,得到训练文本具体包括:向训练端持续发送语音数据输入提示;在预设时长后检测是否存在目标训练者在训练端输入的语音数据;若是,则停止向训练端发送语音数据输入提示;若否,则向与目标训练者绑定的终端发送语音数据输入提示,直到检测到目标训练者输入的语音数据;识别语音数据,基于识别结果得到训练文本。3.根据权利要求1所述的基于人工智能的自然语言处理方法,其特征在于,所述将训练文本反馈到训练端进行初确认,得到初始训练文本具体包括:将训练文本进行划分,得到若干第一训练字/词,将若干训练字/词输入到预先训练好的训练检测模型中进行检测;基于检测结果判断是否符合期望阈值,若是,则直接将该训练文本定义为初始训练文本;若否,则根据检测结果中显示不符合期望阈值的检测项自动补充训练文本,以使得经过自动补充的训练文本的检测结果符合期望阈值;将经过自动补充的训练文本标记为第二优先级训练文本,将未经过自动补充的训练文本标记为第一优先级训练文本,将第一优先级训练文本和第二优先级训练文本进行组合,定义组合后的训练文本为初始训练文本。4.根据权利要求3所述的基于人工智能的自然语言处理方法,其特征在于,所述基于初始训练文本匹配训练场景信息素材,将训练场景信息素材进行存储具体包括:判断初始训练文本的类型;当判断初始训练文本为第二优先级训练文本时,将第二优先级训练文本进行划分,得到若干第二训练字/词,获取第一优先级训练文本对应的若干第一训练字/词,将若干第一训练字/词中至少一个与若干第二训练字/词中至少一个进行排列组合,得到排列组合词/句;将排列组合词进行完整性识别筛选,剔除不符合完整词性结构的排列组合词并且进行标记,将经过标记的排列组合词定位于排列组合句中并且剔除排列组合句中包含经过标记
的排列组合词的排列组合句;基于经过剔除的排列组合词/句在线进行信息素材搜索,所述信息素材包括图片和短视频,基于预设敏感筛选条件对搜索得到的信息素材进行过滤,过滤后的信息素材即为初步训练场景信息素材;将初步训练场景信息素材进行备份;获取目标训练者的音频数据以替换一个初步场景训练素材中对应的原声数据,得到第一场景训练素材;过滤掉其中一个初步场景训练素材中的原声数据,得到第二场景训练素材;将第一场景训练素材和第二场景训练素材分别进行保存。5.根据权利要求4所述的基于人工智能的...
【专利技术属性】
技术研发人员:王泽林,孙祺,
申请(专利权)人:孙祺,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。