本发明专利技术公开了一种多模态融合交互的监控大屏装置,包括表示层、应用层、数据存储层和物理层;所述表示层:负责显示数据信息,包括图表、文字信息;所述应用层:负责处理用户的交互请求,包括语音交互、人脸识别、手势识别;所述数据存储层:负责存储数据信息,包括数据库、文件系统;所述物理层:负责硬件设备的控制;本发明专利技术的有益效果是:通过融合语音,视觉,手势多模态输入,让监控大屏可以实现通过语音和远程手势进行交互,一句话或一个手势就可以实现查询的交互,提升监控大屏的智能性和易操作性;新的语音识别算法,融合了视觉信息,通过语音和口型输入,实现了多步卷积注意力机制的集成,提升在嘈杂环境下的语音识别的准确性。提升在嘈杂环境下的语音识别的准确性。提升在嘈杂环境下的语音识别的准确性。
【技术实现步骤摘要】
一种多模态融合交互的监控大屏装置
[0001]本专利技术属于语音交互、视觉识别、手势识别
,具体涉及一种多模态融合交互的监控大屏装置。
技术介绍
[0002]监控大屏将系统所收集、整理的各种信息,以及各类模型的分析计算结果,按决策者的需要,以最简明直观的形式展示,或者展示一些监控画面;随着技术的进步,监控大屏已经应用广泛,在高清显示上无任何压力;如此,才有利于决策者快速准确地了解当前形势,分析判断各种方案的利弊,辅助更好地作出正确的决策。
[0003]现有的监控大屏多以图表的形式展示数据信息,通常需要使用键盘或鼠标进行操作,或者加入触屏技术,可以实现屏幕的点选操作。
[0004]现有的监控大屏,切换图表或更新筛选条件,都需要手动通过鼠标键盘或触屏操作,在图表过滤条件或图表内容丰富的情况下,操作比较繁琐,交互能力较差。
技术实现思路
[0005]本专利技术的目的在于提供一种多模态融合交互的监控大屏装置,使用者可以通过不同的交互方式轻松操作监控大屏,查看数据信息。
[0006]为实现上述目的,本专利技术提供如下技术方案:一种多模态融合交互的监控大屏装置,包括表示层、应用层、数据存储层和物理层;所述表示层:负责显示数据信息,包括图表、文字信息;所述应用层:负责处理用户的交互请求,包括语音交互、人脸识别、手势识别;所述数据存储层:负责存储数据信息,包括数据库、文件系统;所述物理层:负责硬件设备的控制,包括显示器、扬声器、摄像头。
[0007]作为本专利技术的一种优选的技术方案,监控大屏内置语音识别模块,视觉识别模块和手势识别模块,可将用户的语音输入转换为文字信息,并结合知识图谱,定位不同的监控报表以及不同的过滤条件,在监控大屏上显示需要查看的报表数据。
[0008]作为本专利技术的一种优选的技术方案,所述监控大屏整体实现步骤如下:步骤一:在监控系统中配置可以在监控大屏中展示的监控报表;步骤二:将配置好的监控报表的名称以及过滤条件进行三元组信息抽取,存入知识图谱;步骤三:用户注册,录入人脸信息,录入个性化语音信息;步骤四:构建人脸特征库,支持后续的人脸识别,并通过个性化语音数据,微调语音识别模型得到针对个人的语音识别权重并存储;步骤五:用户通过语音输入想要查看的监控报表以及过滤条件;步骤六:监控大屏通过人脸识别确定用户,如果是已个性化语音训练的用户,语音识别调用个人的语音识别模型,如果是未个性化语音训练的用户,调用通用的语音识别模
型,再结合口型识别,将语音信息转为文本信息;步骤七:通过语义匹配模块将步骤六识别的文本信息在知识图谱中进行匹配,识别出用户需要查看的报表以及过滤条件;步骤八:将步骤七识别的报表按过滤条件过滤后在监控大屏进行展示;步骤九:通过手势识别模块,支持与监控大屏进行远程的手势交互。
[0009]作为本专利技术的一种优选的技术方案,所述语音识别模块实现步骤如下:步骤一:基于开源的语音识别模型,在超过100G的语音识别数据集上训练语音识别的通用模型;步骤二:通过收集注册用户的个性化语音数据,在通用语音识别模型的基础上进行微调得到个性化语音识别模型的权重;步骤三:用户输入语音,如果是已个性化语音训练的用户调用个性化语音识别模型,如果是未个性化语音训练的用户调用通用语音识别模型,得到识别的拼音;步骤四:通过视觉识别模型获取用户说话时的口型图像,结合步骤三识别出的拼音数据,通过ConvS2S模型架构识别出最终的文字,组合语音识别输出和口型图片实现最终语音识别文字的模型在原有ConvS2S的基础上,通过新增一个卷积注意力模块,实现多步卷积注意力机制的集成。
[0010]作为本专利技术的一种优选的技术方案,所述知识图谱中进行匹配采用SimCSE的模型架构实现,具体步骤如下:步骤一:将监控报表中的报表名称以及过滤条件进行三元组信息提取,存入知识图谱;步骤二:将知识图谱中的三元组信息,通过翻译和回译,同义词替换,词语位置随机调换方式,构造语义相近的句子对;步骤三:将句子对输入SimCSE模型,进行训练,得到语义匹配模型;步骤四:将语音识别的文本内容,通过SimCSE模型匹配,获取知识图谱中意义最相近的报表和过滤条件;步骤五:根据过滤条件过滤报表数据,并将结果返回监控大屏。
[0011]作为本专利技术的一种优选的技术方案,所述视觉识别模块中的视觉识别包含两部分的内容:一是可以通过摄像头识别用户的人脸,并且可以将识别到的人脸与已经注册的人脸进行比对,确定用户的身份;针对不同的用户,在语音识别模块会调用不同的模型权重参数;二是通过视觉识别动态的识别说话者在语音交互过程中的口型,将口型数据和语音数据共同输入语音识别模块;视觉识别关键步骤如下:步骤一:通过摄像头识别用户人脸,进行人脸识别;步骤二:如果确认用户是已自定义语音训练用户,语音识别采用个性化语音识别模型,否则采用通用语音识别模型;步骤三:用户在通过语音输入时,实时记录用户的口型数据,作为后续语音识别的数据输入。
[0012]作为本专利技术的一种优选的技术方案,所述手势识别的关键步骤如下:步骤一:监控大屏返回特定报表数据后,摄像头监控用户手势输入;步骤二:如果用户用手从下到上抬升,数据调整为升序排序,用手从上到下下降,数据调整为降序排序,用手从左到右滑动,实现翻动到下一页,用手从右到左滑动,实现翻动到上一页。
[0013]作为本专利技术的一种优选的技术方案,还包括监控报警模块,通过监控报警模块对数据进行监控,并对异常数据进行报警。
[0014]与现有技术相比,本专利技术的有益效果是:通过融合语音,视觉,手势多模态输入,让监控大屏可以实现通过语音和远程手势进行交互,一句话或一个手势就可以实现查询的交互,提升监控大屏的智能性和易操作性;为了实现语音交互功能,本专利技术提出了一种新的语音识别算法,融合了视觉信息,通过语音和口型输入,实现了多步卷积注意力机制的集成,提升在嘈杂环境下的语音识别的准确性。
附图说明
[0015]图1为本专利技术的监控大屏整体实现步骤图;图2为本专利技术的语音识别模块实现步骤图;图3为本专利技术的知识图谱中进行匹配采用SimCSE的模型架构实现,具体步骤图;图4为本专利技术的视觉识别关键步骤图;图5为本专利技术的手势识别的关键步骤图。
实施方式
[0016]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
实施例
[0017]请参阅图1
‑
图5,为本专利技术的第一个实施例,该实施例提供一种多模态融合交互的监控大屏装置,包括表示层、应用层、数据存储层和物理层;表示层:负责显示数据信息,包括图表、文字信息;应用层:负责处理用户的交互请求,包括语音交互、人脸识别、手势识别;数据存储层:负责存储数据信息,包括数据库、文件系统;物理层:负责硬件设备的控制,包括显示器、扬声器、摄像头。本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种多模态融合交互的监控大屏装置,其特征在于:包括表示层、应用层、数据存储层和物理层;所述表示层:负责显示数据信息,包括图表、文字信息;所述应用层:负责处理用户的交互请求,包括语音交互、人脸识别、手势识别;所述数据存储层:负责存储数据信息,包括数据库、文件系统;所述物理层:负责硬件设备的控制,包括显示器、扬声器、摄像头。2.根据权利要求1所述的一种多模态融合交互的监控大屏装置,其特征在于:监控大屏内置语音识别模块,视觉识别模块和手势识别模块,可将用户的语音输入转换为文字信息,并结合知识图谱,定位不同的监控报表以及不同的过滤条件,在监控大屏上显示需要查看的报表数据。3.根据权利要求2所述的一种多模态融合交互的监控大屏装置,其特征在于:所述监控大屏整体实现步骤如下:步骤一:在监控系统中配置可以在监控大屏中展示的监控报表;步骤二:将配置好的监控报表的名称以及过滤条件进行三元组信息抽取,存入知识图谱;步骤三:用户注册,录入人脸信息,录入个性化语音信息;步骤四:构建人脸特征库,支持后续的人脸识别,并通过个性化语音数据,微调语音识别模型得到针对个人的语音识别权重并存储;步骤五:用户通过语音输入想要查看的监控报表以及过滤条件;步骤六:监控大屏通过人脸识别确定用户,如果是已个性化语音训练的用户,语音识别调用个人的语音识别模型,如果是未个性化语音训练的用户,调用通用的语音识别模型,再结合口型识别,将语音信息转为文本信息;步骤七:通过语义匹配模块将步骤六识别的文本信息在知识图谱中进行匹配,识别出用户需要查看的报表以及过滤条件;步骤八:将步骤七识别的报表按过滤条件过滤后在监控大屏进行展示;步骤九:通过手势识别模块,支持与监控大屏进行远程的手势交互。4.根据权利要求2所述的一种多模态融合交互的监控大屏装置,其特征在于:所述语音识别模块实现步骤如下:步骤一:基于开源的语音识别模型,在超过100G的语音识别数据集上训练语音识别的通用模型;步骤二:通过收集注册用户的个性化语音数据,在通用语音识别模型的基础上进行微调得到个性化语音识别模型的权重;步骤三:用户输入语音,如果是已个性化语音训练的用户调用个性化语音识别模型,如果是未个性化语音训练的用户调用通用语音识别模型,得到识别的拼音;步骤四:通过视...
【专利技术属性】
技术研发人员:凌玉飞,张棋光,车浩流,
申请(专利权)人:深圳市客一客信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。