辅助视障人士视觉问答方法、装置、计算设备及存储介质制造方法及图纸

技术编号:29009423 阅读:16 留言:0更新日期:2021-06-26 05:09
本发明专利技术实施例涉及人工智能技术领域,公开了一种辅助视障人士视觉问答方法、装置、计算设备及存储介质,该方法包括:获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本;分别对所述视频帧图像以及所述问题文本进行预处理;根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答;将所述回答转换成声音反馈给视障人士。通过上述方式,本发明专利技术实施例能够帮助视障人士更好的了解日常生活视觉信息。日常生活视觉信息。日常生活视觉信息。

【技术实现步骤摘要】
辅助视障人士视觉问答方法、装置、计算设备及存储介质


[0001]本专利技术实施例涉及人工智能
,具体涉及一种辅助视障人士视觉问答方法、装置、计算设备及存储介质。

技术介绍

[0002]中国视力障碍人数有7551万,其中盲人达到1400万。视障人士对于了解日常生活视觉信息的需求非常迫切,但是目前视障人群暂无有效手段来进行视觉问答。

技术实现思路

[0003]鉴于上述问题,本专利技术实施例提供了一种辅助视障人士视觉问答方法、装置、计算设备及存储介质,克服了上述问题或者至少部分地解决了上述问题。
[0004]根据本专利技术实施例的一个方面,提供了一种辅助视障人士视觉问答方法,所述方法包括:获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本;分别对所述视频帧图像以及所述问题文本进行预处理;根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答;将所述回答转换成声音反馈给视障人士。
[0005]在一种可选的方式中,所述分别对所述视频帧图像以及所述问题进行预处理,包括:将所述视频帧图像中的每一帧图像进行归一化处理;将所述问题文本进行文本清洗和文本序列化,并索引化为索引序列。
[0006]在一种可选的方式中,所述将所述视频帧图像中的每一帧图像进行归一化处理,包括:从所述视频帧图像中提取每一帧图像,并将所述图像转换为448*448大小;对每一帧图像的每一个像素值按比例压缩至0到1的范围内;将每一帧图片的像素值分别对应减去全局均值图片的像素值,实现归一化。
[0007]在一种可选的方式中,所述根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答之前,包括:获取历史局数据集,包括视障人士捕获的历史视频帧图像、与所述历史视频帧图像对应的历史问题文本以及针对所述历史问题文本的历史回答;对所述历史视频帧图像、所述历史问题文本以及所述历史回答进行预处理;根据预处理后的所述历史局数据集训练生成所述注意力视觉问答模型。
[0008]在一种可选的方式中,所述根据预处理后的所述历史局数据集训练生成所述注意力视觉问答模型,包括:将预处理后的所述历史视频帧图像和所述历史问题文本输入所述注意力视觉问答模型;应用所述注意力视觉问答模型根据所述历史视频帧图像和所述历史问题文本生成预测的回答;应用目标函数对所述预测的回答与针对所述历史问题文本的所述历史回答进行衡量;应用梯度下降优化算法加速所述注意力视觉问答模型的收敛速度,找到使目标函数最小的权重值,得到所述注意力视觉问答模型的收敛的权重。
[0009]在一种可选的方式中,所述应用所述注意力视觉问答模型根据所述历史视频帧图
像和所述历史问题文本生成预测的回答,包括:应用预训练的卷积神经网络模型对预处理后的所述历史视频帧图像抽取图像的特征表示,编码成预设长度的特征向量,输出形状为512*14*14的图像特征向量矩阵;应用长短期记忆神经网络模型对预处理后的所述历史问题文本进行向量映射,并提取并输出问题文本特征向量;应用全连接注意力层根据所述图像特征向量矩阵以及所述问题文本特征向量生成所述图像各区域的注意力权重,并计算所述图像特征向量与对应的所述注意力权重的乘积之和;应用全连接层根据所述图像特征向量与对应的所述注意力权重的乘积之和输出所述预测的回答。
[0010]在一种可选的方式中,所述应用长短期记忆神经网络模型对预处理后的所述历史问题文本进行向量映射,并提取并输出问题文本特征向量,包括:应用词嵌入层将所述历史问题文本中每个词转化为预设维度的空间向量;应用长短期记忆神经网络层根据所述空间向量提取并输出所述问题文本特征向量。
[0011]根据本专利技术实施例的另一个方面,提供了一种辅助视障人士视觉问答装置,所述装置包括:数据获取单元,用于获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本;预处理单元,用于分别对所述视频帧图像以及所述问题文本进行预处理;回答获取单元,用于根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答;回答反馈单元,用于将所述回答转换成声音反馈给视障人士。
[0012]根据本专利技术实施例的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
[0013]所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述辅助视障人士视觉问答方法的步骤。
[0014]根据本专利技术实施例的又一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行上述辅助视障人士视觉问答方法的步骤。
[0015]本专利技术实施例通过获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本;分别对所述视频帧图像以及所述问题文本进行预处理;根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答;将所述回答转换成声音反馈给视障人士,能够帮助视障人士更好的了解日常生活视觉信息。
[0016]上述说明仅是本专利技术实施例技术方案的概述,为了能够更清楚了解本专利技术实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0017]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0018]图1示出了本专利技术实施例提供的辅助视障人士视觉问答方法的流程示意图;
[0019]图2示出了本专利技术实施例提供的辅助视障人士视觉问答方法的示例图;
[0020]图3示出了本专利技术实施例提供的辅助视障人士视觉问答方法的模型训练流程示意图;
[0021]图4示出了本专利技术实施例提供的辅助视障人士视觉问答方法的模型训练示例图;
[0022]图5示出了本专利技术实施例提供的辅助视障人士视觉问答装置的结构示意图;
[0023]图6示出了本专利技术实施例提供的计算设备的结构示意图。
具体实施方式
[0024]下面将参照附图更详细地描述本专利技术的示例性实施例。虽然附图中显示了本专利技术的示例性实施例,然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本专利技术,并且能够将本专利技术的范围完整的传达给本领域的技术人员。
[0025]图1示出了本专利技术实施例提供的辅助视障人士视觉问答方法的流程示意图。如图1所示,该辅助视障人士视觉问答方法包括:
[0026]步骤S11:获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本。
[0027]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种辅助视障人士视觉问答方法,其特征在于,所述方法包括:获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本;分别对所述视频帧图像以及所述问题文本进行预处理;根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答;将所述回答转换成声音反馈给视障人士。2.根据权利要求1所述的方法,其特征在于,所述分别对所述视频帧图像以及所述问题进行预处理,包括:将所述视频帧图像中的每一帧图像进行归一化处理;将所述问题文本进行文本清洗和文本序列化,并索引化为索引序列。3.根据权利要求2所述的方法,其特征在于,所述将所述视频帧图像中的每一帧图像进行归一化处理,包括:从所述视频帧图像中提取每一帧图像,并将所述图像转换为448*448大小;对每一帧图像的每一个像素值按比例压缩至0到1的范围内;将每一帧图片的像素值分别对应减去全局均值图片的像素值,实现归一化。4.根据权利要求1所述的方法,其特征在于,所述根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答之前,包括:获取历史局数据集,包括视障人士捕获的历史视频帧图像、与所述历史视频帧图像对应的历史问题文本以及针对所述历史问题文本的历史回答;对所述历史视频帧图像、所述历史问题文本以及所述历史回答进行预处理;根据预处理后的所述历史局数据集训练生成所述注意力视觉问答模型。5.根据权利要求4所述的方法,其特征在于,所述根据预处理后的所述历史局数据集训练生成所述注意力视觉问答模型,包括:将预处理后的所述历史视频帧图像和所述历史问题文本输入所述注意力视觉问答模型;应用所述注意力视觉问答模型根据所述历史视频帧图像和所述历史问题文本生成预测的回答;应用目标函数对所述预测的回答与针对所述历史问题文本的所述历史回答进行衡量;应用梯度下降优化算法加速所述注意力视觉问答模型的收敛速度,找到使目标函数最小的权重值,得到所述注意力视觉问答模型的收敛的权重。6.根据权利要...

【专利技术属性】
技术研发人员:邢彪郑屹峰张卷卷陈维新章淑敏刘梦晗林乐轩郑远哲
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1