一种语音搜索和分析系统,包括:语音转写模块、建立索引模块、语音建索模块、文本分析模块。从而检索出语音中包含的关键词以及关键词出现的位置等特征信息。本发明专利技术通过语音分析可以有效的对海量录音文件、音频文件进行分析处理,实现语音中的知识挖掘和对语音文件的快速检索,解决了对语音数据的搜索和分析难题。
【技术实现步骤摘要】
【专利摘要】一种语音搜索和分析系统,包括:语音转写模块、建立索引模块、语音建索模块、文本分析模块。从而检索出语音中包含的关键词以及关键词出现的位置等特征信息。本专利技术通过语音分析可以有效的对海量录音文件、音频文件进行分析处理,实现语音中的知识挖掘和对语音文件的快速检索,解决了对语音数据的搜索和分析难题。【专利说明】
本专利技术涉及一种语音的搜索和分析系统及方法,属于电子信息
。
技术介绍
电信、移动等呼叫中心有着大量的客服录音数据,这些数据中包含着客户需求等大量的有用信息。从消费者行为学的角度来说,客户与客服座席的每一次交互都可以反馈出其当前的消费情况和下一步的消费行为趋势。客户对于产品的喜好程度、关注焦点、心理预期等都会通过座席代表向企业反馈。但包含着客户需求等大量有用信息的语音数据很难进行搜索和分析,如同拥有语音宝藏但却没有打开宝藏的钥匙;目前,呼叫中心用于分析的数据主要来源于座席代表所标注的来电原因和投诉建议等信息。受数据来源的限制,在以下方面存在明显不足:(1)仅能被动的看出知识库所列来电原因分布情况,客户深层来电诉求、希望解决的问题、关注的焦点等更深入的数据受热线压力以及一线人员素质等因素未能展现,同时将这些客户行为特征与客户年龄段、APRU值、套餐类型、业务偏好、市场活动等方面结合起来的综合性营销分析也无法开展;(2)在目前的一些客户营销手段中,例如采取通过专用的模型进行预测拨号,并通过一定的策略选取号段进行外呼营销的客户营销手段,由于各种原因,营销成功率仅有3%。面对绝大多数营销未成功的海量电话,如何准确定位原因,如何从客户角度分析进行改善提供,而对成功营销的电话,如何分析其中的成功点进行复制推广,目前还缺少较好的语音搜索和分析方法,无法从录音中获取结构化的信息进行分析改善。
技术实现思路
本专利技术的技术解决问题:克服现有技术的不足,提供一种语音搜索和分析系统及方法,通过对语音中包含的信息进行深度挖掘,从而检索出语音中包含的关键词以及关键词出现的位置等特征信息。通过语音分析可以有效地对海量录音文件、音频文件进行分析处理,实现语音中的知识挖掘和对语音文件的快速检索,解决了对语音数据的搜索和分析难题。本专利技术的技术解决方案:本专利技术提供一种语音搜索和分析系统,包括语音转写、建立索引、语音检索和文本分析四个模块,如图1所示:语音转写模块,实现语音数据向文本数据的转换;接收语音数据并应用语音识别技术进行转写生成文本和属性信息;所述语音识别技术实现过程为:首先进行模数转换,将语音数据数字化,得到录音的数字化信息;再对数字化后的信息进行VAD处理,也就是把首尾端的静音切除,降低对后续步骤造成的干扰,得到VAD段;基于VAD段和特征提取技术区分语音对话角色实现场景分割功能,并将结果以文本形式输出,包括语音对话内容、语音时长、静音信息,至此完成了语音转写过程,并将文本和语音属性信息结果传送至建立索引模块进行结构化建索;建立索引模块,对从语音转写模块接收的文本和语音属性信息进行结构化处理,生成结构化数据;再对生成的结构化数据应用全文搜索引擎技术建立索引,生成可以进行文本分析和搜索的索引数据,并提供索引查询和分析接口,供语音检索和文本分析使用;语音检索模块,基于建立索引模块的索引查询和接口进行语音搜索,使用全文搜索引擎技术传输关键词、模型、专题、原始维度作为搜索条件进行搜索,返回匹配的录音信息列表,用户可以直接以文字形式查看录音信息列表中的录音,也可以直接以测听语音的形式查看录音,至此已完成语音搜索功能;文本分析模块,同样基于建立索引模块的索引和接口进行文本分析,多种分析工具可以使用,以建立模型方式进行分类分析,使用热词工具获取热词排行并进行变化趋势分析,直接以关键词搜索方式进行文本分析,使用维度钻取方式进行条件过滤分析,结合模型、关键词、维度钻取等方式进行多维交叉分析,多角度、多层次、可视化挖掘海量数据,获取趋势信息、热点信息、竞争信息等用户关心的指向性数据;然后以图形、表格等形式向用户展示分析产生的这些指向性数据,达到高效沟通的目的,至此完成文本分析功能;本专利技术的语音搜索和分析方法实现步骤如下:第一步,进行语音转写,实现语音数据向文本数据的转换;接收语音数据并应用语音识别技术进行转写生成文本和属性信息;所述语音识别技术实现过程为:首先进行模数转换,将语音数据数字化,得到录音的数字化信息;再对数字化后的信息进行VAD处理,也就是把首尾端的静音切除,降低对后续步骤造成的干扰,得到VAD段;基于VAD段和特征提取技术区分语音对话角色实现场景分割功能,并将结果以文本形式输出,包括语音对话内容、语音时长、静音信息,至此完成了语音转写过程,并将文本和语音属性信息结果传送至建立索引模块进行结构化建索;第二步,建立索引,对从语音转写模块接收的文本和语音属性信息进行结构化处理,生成结构化数据;再对生成的结构化数据应用全文搜索引擎技术建立索引,生成可以进行文本分析和搜索的索引数据,并提供索引查询和分析接口,供语音检索和文本分析使用;第三步,进行语音检索,基于建立索引模块的索引查询和接口进行语音搜索,使用全文搜索引擎技术传输关键词、模型、专题、原始维度作为搜索条件进行搜索,返回匹配的录音信息列表,用户可以直接以文字形式查看录音信息列表中的录音,也可以直接以测听语音的形式查看录音,至此已完成语音搜索功能;第四步,进行文本分析,同样基于建立索引模块的索引和接口进行文本分析,多种分析工具可以使用,以建立模型方式进行分类分析,使用热词工具获取热词排行并进行变化趋势分析,直接以关键词搜索方式进行文本分析,使用维度钻取方式进行条件过滤分析,结合模型、关键词、维度钻取等方式进行多维交叉分析,多角度、多层次、可视化挖掘海量数据,获取趋势信息、热点信息、竞争信息等用户关心的指向性数据;然后以图形、表格等形式向用户展示分析产生的这些指向性数据,达到高效沟通的目的,至此完成文本分析功能;本专利技术与现有技术相比的优点在于:(I)分析准确性,基于海量数据的分析,准确性更高。相比客户营销分析数据来源于座席所标注的来电原因等信息的方式,语音搜索和分析方法应用于客户营销可以更加准确的捕捉各类客户关注热点和客户的真实感知,使用系统进行大批量的语音转写、建索和分析相对人工抽查处理的数据范围要高上千倍,从海量语音数据中可以挖掘更准确更有价值的信息。(2)分析主动性,对于客户关注的热点业务如来电原因等,可以在原有标注的基础上通过语音分析获取更深入的数据信息。来源于座席所标注的来电原因等信息的客户营销分析数据仅能从知识库所列来电原因分布情况获取,语音分析技术:前述基于模型的分类分析、基于关键词的文本分析、基于维度钻取的条件过滤分析以及多维交叉分析等应用于客户营销可以主动获取用户深层来电原因、希望解决的问题、关注的焦点等更深入的数据信息,而不仅仅局限于座席标注的特定信息。(3)分析高效性,实现非结构化数据结构化,极大地减少工作量,提升工作效率。来源于录音的数据信息原来仅仅能通过人工测听方式去获取,此种获取方式具有工作量大、效率低、重复性强等特点。通过本专利技术的批量语音转写、建立索引等步骤实现高效的结构化数据索引造,并提供基于索引的搜索和文本分析方法,可本文档来自技高网...
【技术保护点】
【技术特征摘要】
【专利技术属性】
技术研发人员:易中华,武全胜,陆登,王平华,
申请(专利权)人:安徽科大讯飞信息科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。