一种针对自然语言进行情绪识别的方法技术

技术编号:17779927 阅读:25 留言:0更新日期:2018-04-22 08:32
本发明专利技术公开一种针对自然语言进行情绪识别的方法,本方法综合考虑语音和文本内容两方面的信息,通过机器学习算法,判断出客户正确的情绪反应,并根据客户问题和情绪识别结果,让机器人更加智能、自然的与客户进行交流。

【技术实现步骤摘要】
一种针对自然语言进行情绪识别的方法
本专利技术涉及一种针对自然语言进行情绪识别的方法,属于自然语言处理和机器学习领域。
技术介绍
作为人机交互中最直接和最有效的方式,自然语言是传递和表达信息最精确、最复杂的重要媒介。人与人之间正常的自然语言交互,往往含有感情色彩,在不同的情绪下,同一句话可能会表达出不同的含义,因此,声音和语言都是语义理解的重要参量。而当下的聊天机器人,基本上通过语音识别技术,依据说话人的文本内容,进行语义理解与交互。用户收到的响应,要么是文本信息,要么是经过TTS语音合成的没有感情色彩的反馈。这种仅依赖文本内容而不考虑情绪状态进行语义理解的方式,使得机器人不能够全面的理解说话人的意图。目前也有很多基于文本内容进行情绪识别的研究,比如,人在愤怒的状态下可能会使用更多的侮辱性的词汇;在高兴的时候,可能会使用一些积极向上的词汇。但是,应用到具有自然语言交互的机器人对话系统中时,往往难以正确识别到客户正确的情绪反应。语音本身就富含大量的情感信息,比如,人在紧张的时候,更容易有停顿和语法方面的错误;在愤怒的时候,声音明显会响亮很多。综合考虑语音和文本内容两方面的信息,通过机器学习,判断出客户正确的情绪反应,并依此进行答案和情绪反馈,会让机器人更加智能的与客户进行交流。
技术实现思路
本专利技术要解决的技术问题是提供一种针对自然语言进行情绪识别的方法,综合考虑语音和文本内容两方面的信息,通过机器学习算法,判断出客户正确的情绪反应,并根据客户问题和情绪识别结果,让机器人更加智能、自然的与客户进行交流。为了解决所述技术问题,本专利技术采用的技术方案是:一种针对自然语言进行情绪识别的方法,该方法对收集的自然语言分别进行基于文本内容和基于语音的的情绪识别,然后综合两方面的信息,判断客户情绪类别,包括以下步骤:S01)、采集载有自然语言的语音信息,通过语音识别将其转换为文本信息,输入到事先建立好的文本情绪分类器,判断该文本信息是积极、消极还是客观,并输出各个类别的置信度;S02)、基于现有的语音库和机器人不断采集的自然语音,提取不同情绪状态下的声学特征并进行统计学习,建立一个语音情绪分类器,载有自然语言的语音信息输入后,判断该语音信息是积极、消极还是客观,并输出各个类别的置信度;S03)、参考基于文本内容的类别置信度和基于语音的类别置信度,通过支持向量机进行训练学习,最终得到一个综合语音和文本内容的情绪分析分类器。本专利技术所述针对自然语言进行情绪识别的方法,基于文本内容的情绪识别包括以下步骤:S11)、构建语料库,依据现有的情绪分类语料库,将其分为积极、消极和客观三组样本,同时,通过机器人不断地与客户进行自然语言交互,收集文本内容信息,不断地丰富语料库;S12)、特征词选择,采用CHI算法从构建的语料库中选择能够区分情绪类别的特征词;S13)、权重计算,根据步骤S11提供的语料库和步骤S12提供的特征词,采用改进的TF-IDF算法进行特征词统计和权重计算;S14)、采用SVM进行样本训练和测试,语料库中分为积极、消极和客观三类,采用SVM算法进行三分类的训练学习,训练结束后,输入由语音信息转换成的文本内容,即可输出各个类别的置信度。本专利技术所述针对自然语言进行情绪识别的方法,基于语音的情绪识别包括以下步骤:S21)、构建语音库,依据现有采集的语音构建语音库,同时通过机器人不断的进行现场语料采集来进行补充;S22)、语音信号的预处理和特征采集,将采集的语音信号进行采样、量化、加窗分帧的预处理之后进行特征提取,提取时域下的持续时间、短时能量、短时平均过零率、基音周期作为情绪识别的特征;S23)、采用高斯混合模型进行情绪判断,根据不同的语音特征在情绪表达的权重大小进行线性组合分析。本专利技术所述针对自然语言进行情绪识别的方法,步骤S11中,通过python爬虫爬取微博、淘宝等网站上面的大量的回复、评论进行分类,或者直接使用网络上公开的短文本情绪分类库,构建情绪识别语料库,同时利用交互机器人不断的进行现场采集,在机器人收到语音信号后,将其识别为文本内容发送给后台,并将这部分数据进行标注之后输入语料库,不断丰富语料库。本专利技术所述针对自然语言进行情绪识别的方法,针对机器人不能正确切分出来的词汇,建立一份用户自定义词表,依据机器人不断收集的问答数据和现场工作人员的反馈,不断丰富用户自定义词表。本专利技术所述针对自然语言进行情绪识别的方法,步骤S12中,采用情感词典来进行辅助特征选择。进一步地,采用知网的情感分析词语集来辅助进行特征词的选择。本专利技术所述针对自然语言进行情绪识别的方法,步骤S13中,改进的TF-IDF算法为:根据短文本中是否有情感词、程度修饰词,分别在TF计算项上乘以一个自定义系数,以体现情感词、程度修饰词对情绪识别的表示能力。本专利技术所述针对自然语言进行情绪识别的方法,步骤S21中,依赖网络上已有的情感语音库构建语音库,同时通过对话机器人不断的进行现场语音采集,丰富语音库,并将其分为积极、消极和客观三组样本。本专利技术所述针对自然语言进行情绪识别的方法,步骤S23中,采用高斯混合模型进行分类,将语音信号分为积极、消极和客观三类,在分类过程中,采用最大期望算法,将被测语音在情绪分类中的对数似然函数最大化,以完成情绪的判断,将一条语音输入到训练好的分类器中,即可输出不同类别的置信度。本专利技术的有益效果:本专利技术综合考虑语音和文本内容两方面的信息,通过机器学习算法,判断出客户正确的情绪反应,并根据客户问题和情绪识别结果,让机器人更加智能、自然的与客户进行交流。附图说明图1为基于文本内容的情绪识别流程图;图2为基于语音的情绪识别流程图;图3为综合语音、文本内容的情绪识别流程图。具体实施例下面结合附图和具体实施例对本专利技术作进一步的说明。本实施例立足于智能交互机器人,提供一种针对自然语言进行情绪识别的方法,其通过机器人麦克收集语音,然后分别进行基于文本内容和基于语音的情绪识别,然后综合两方面的信息,判定客户情绪类别,由此可以使机器人更加自然地进行交互。本方法也可以使用于其他可以进行人机交互的设备,如手机、电脑等,包括但不仅限于这些设备。如图3所示,本方法包括以下步骤:S01)、采集载有自然语言的语音信息,通过语音识别将其转换为文本信息,输入到事先建立好的文本情绪分类器,判断该文本信息是积极、消极还是客观,并输出各个类别的置信度;S02)、基于现有的语音库和机器人不断采集的自然语音,提取不同情绪状态下的声学特征并进行统计学习,建立一个语音情绪分类器,载有自然语言的语音信息输入后,判断该语音信息是积极、消极还是客观,并输出各个类别的置信度;S03)、参考基于文本内容的类别置信度和基于语音的类别置信度,通过支持向量机进行训练学习,最终得到一个综合语音和文本内容的情绪分析分类器。如图1所示,基于文本内容的情绪识别包括以下步骤:S11)、构建语料库,依据现有的情绪分类语料库,将其分为积极、消极和客观三组样本,同时,通过机器人不断地与客户进行自然语言交互,收集文本内容信息,不断地丰富语料库。立足于机器人的情绪识别,其对话样本往往是短文本,类似于聊天或者微博等互联网上的回复、评论信息。短文本的表述更加口语化,同时表述比书面语更加简单。通过python爬虫本文档来自技高网...
一种针对自然语言进行情绪识别的方法

【技术保护点】
一种针对自然语言进行情绪识别的方法,其特征在于:该方法对收集的自然语言分别进行基于文本内容和基于语音的的情绪识别,然后综合两方面的信息,判断客户情绪类别,包括以下步骤:S01)、采集载有自然语言的语音信息,通过语音识别将其转换为文本信息,输入到事先建立好的文本情绪分类器,判断该文本信息是积极、消极还是客观,并输出各个类别的置信度;S02)、基于现有的语音库和机器人不断采集的自然语音,提取不同情绪状态下的声学特征并进行统计学习,建立一个语音情绪分类器,载有自然语言的语音信息输入后,判断该语音信息是积极、消极还是客观,并输出各个类别的置信度;S03)、参考基于文本内容的类别置信度和基于语音的类别置信度,通过支持向量机进行训练学习,最终得到一个综合语音和文本内容的情绪分析分类器。

【技术特征摘要】
1.一种针对自然语言进行情绪识别的方法,其特征在于:该方法对收集的自然语言分别进行基于文本内容和基于语音的的情绪识别,然后综合两方面的信息,判断客户情绪类别,包括以下步骤:S01)、采集载有自然语言的语音信息,通过语音识别将其转换为文本信息,输入到事先建立好的文本情绪分类器,判断该文本信息是积极、消极还是客观,并输出各个类别的置信度;S02)、基于现有的语音库和机器人不断采集的自然语音,提取不同情绪状态下的声学特征并进行统计学习,建立一个语音情绪分类器,载有自然语言的语音信息输入后,判断该语音信息是积极、消极还是客观,并输出各个类别的置信度;S03)、参考基于文本内容的类别置信度和基于语音的类别置信度,通过支持向量机进行训练学习,最终得到一个综合语音和文本内容的情绪分析分类器。2.根据权利要求1所述的针对自然语言进行情绪识别的方法,其特征在于:基于文本内容的情绪识别包括以下步骤:S11)、构建语料库,依据现有的情绪分类语料库,将其分为积极、消极和客观三组样本,同时,通过机器人不断地与客户进行自然语言交互,收集文本内容信息,不断地丰富语料库;S12)、特征词选择,采用CHI算法从构建的语料库中选择能够区分情绪类别的特征词;S13)、权重计算,根据步骤S11提供的语料库和步骤S12提供的特征词,采用改进的TF-IDF算法进行特征词统计和权重计算;S14)、采用SVM进行样本训练和测试,语料库中分为积极、消极和客观三类,采用SVM算法进行三分类的训练学习,训练结束后,输入由语音信息转换成的文本内容,即可输出各个类别的置信度。3.根据权利要求1所述的针对自然语言进行情绪识别的方法,其特征在于:基于语音的情绪识别包括以下步骤:S21)、构建语音库,依据现有采集的语音构建语音库,同时通过机器人不断的进行现场语料采集来进行补充;S22)、语音信号的预处理和特征采集,将采集的语音信号进行采样、量化、加窗分帧的预处理之后进行特征提取,提取时域下的持续时间、短时能量...

【专利技术属性】
技术研发人员:申冲张传锋朱锦雷
申请(专利权)人:神思电子技术股份有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1