辅助视障人士视觉问答方法、装置、计算设备及存储介质制造方法及图纸

技术编号：29009423 阅读：26 留言：0更新日期：2021-06-26 05:09

本发明专利技术实施例涉及人工智能技术领域，公开了一种辅助视障人士视觉问答方法、装置、计算设备及存储介质，该方法包括：获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本；分别对所述视频帧图像以及所述问题文本进行预处理；根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答；将所述回答转换成声音反馈给视障人士。通过上述方式，本发明专利技术实施例能够帮助视障人士更好的了解日常生活视觉信息。日常生活视觉信息。日常生活视觉信息。

全部详细技术资料下载

【技术实现步骤摘要】
辅助视障人士视觉问答方法、装置、计算设备及存储介质

[0001]本专利技术实施例涉及人工智能
，具体涉及一种辅助视障人士视觉问答方法、装置、计算设备及存储介质。

技术介绍

[0002]中国视力障碍人数有7551万，其中盲人达到1400万。视障人士对于了解日常生活视觉信息的需求非常迫切，但是目前视障人群暂无有效手段来进行视觉问答。

技术实现思路

[0003]鉴于上述问题，本专利技术实施例提供了一种辅助视障人士视觉问答方法、装置、计算设备及存储介质，克服了上述问题或者至少部分地解决了上述问题。
[0004]根据本专利技术实施例的一个方面，提供了一种辅助视障人士视觉问答方法，所述方法包括：获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本；分别对所述视频帧图像以及所述问题文本进行预处理；根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答；将所述回答转换成声音反馈给视障人士。
[0005]在一种可选的方式中，所述分别对所述视频帧图像以及所述问题进行预处理，包括：将所述视频帧图像中的每一帧图像进行归一化处理；将所述问题文本进行文本清洗和文本序列化，并索引化为索引序列。
[0006]在一种可选的方式中，所述将所述视频帧图像中的每一帧图像进行归一化处理，包括：从所述视频帧图像中提取每一帧图像，并将所述图像转换为448*448大小；对每一帧图像的每一个像素值按比例压缩至0到1的范围内；将每一帧图片的像素值分别对应减去全局均值...

【技术保护点】

【技术特征摘要】
1.一种辅助视障人士视觉问答方法，其特征在于，所述方法包括：获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本；分别对所述视频帧图像以及所述问题文本进行预处理；根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答；将所述回答转换成声音反馈给视障人士。2.根据权利要求1所述的方法，其特征在于，所述分别对所述视频帧图像以及所述问题进行预处理，包括：将所述视频帧图像中的每一帧图像进行归一化处理；将所述问题文本进行文本清洗和文本序列化，并索引化为索引序列。3.根据权利要求2所述的方法，其特征在于，所述将所述视频帧图像中的每一帧图像进行归一化处理，包括：从所述视频帧图像中提取每一帧图像，并将所述图像转换为448*448大小；对每一帧图像的每一个像素值按比例压缩至0到1的范围内；将每一帧图片的像素值分别对应减去全局均值图片的像素值，实现归一化。4.根据权利要求1所述的方法，其特征在于，所述根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答之前，包括：获取历史局数据集，包括视障人士捕获的历史视频帧图像、与所述历史视频帧图像对应的历史问题文本以及针对所述历史问题文本的历史回答；对所述历史视频帧图像、所述历史问题文本以及所述历史回答进行预处理；根据预处理后的所述历史局数据集训练生成所述注意力视觉问答模型。5.根据权利要求4所述的方法，其特征在于，所述根据预处理后的所述历史局数据集训练生成所述注意力视觉问答模型，包括：将预处理后的所述历史视频帧图像和所述历史问题文本输入所述注意力视觉问答模型；应用所述注意力视觉问答模型根据所述历史视频帧图像和所述历史问题文本生成预测的回答；应用目标函数对所述预测的回答与针对所述历史问题文本的所述历史回答进行衡量；应用梯度下降优化算法加速所述注意力视觉问答模型的收敛速度，找到使目标函数最小的权重值，得到所述注意力视觉问答模型的收敛的权重。6.根据权利要...

【专利技术属性】
技术研发人员：邢彪，郑屹峰，张卷卷，陈维新，章淑敏，刘梦晗，林乐轩，郑远哲，
申请(专利权)人：中国移动通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人