当前位置: 首页 > 专利查询>颜炳郎专利>正文

多模型生成对抗网络人机互动图像描述系统的服务机器人技术方案

技术编号:35544890 阅读:10 留言:0更新日期:2022-11-12 15:23
本发明专利技术是一种多模型生成对抗网络人机互动图像描述系统的服务机器人,该机器人包括有:视觉单元,用来记录视觉图像;多模型图像信息模块,用来记录该图像内容所包含对象的各种模型信息;多模型信息描述模块,用来提供该多模型图像信息模块的各种该模型信息的描述信息;计算单元,连接该视觉单元、该多模型图像信息模块与该多模型信息描述模块,通过生成对抗网络,自该视觉单元记录的该视觉图像中提取相关该模型信息放入该多模型图像信息模块中,再根据该模型信息产生相关的该描述信息放入该多模型信息描述模块中;语音单元,连接该计算单元,通过语音输出该描述信息。通过语音输出该描述信息。通过语音输出该描述信息。

【技术实现步骤摘要】
多模型生成对抗网络人机互动图像描述系统的服务机器人


[0001]本专利技术属于机器人的智能服务应用领域。

技术介绍

[0002]服务型机器人是未来市场中的一大趋势,在人力资源昂贵且匮乏的情况下,将机器人引进日常生活中便是能有效提升生活便利的一个方式。特别在于,社会存在着许多需要导盲帮助的弱势族群,由于科技进步,导盲机器人逐渐受到企业的高度关注。
[0003]传统的导盲机器人只能提供视障者周围是否有人的提醒,但无法判断来员是否与该视障者有所关联,而需由该来员主动对话,才能进行下一步沟通。
[0004]为此,要促进人机互动的最佳方式,乃是希望导盲机器人能通过口语的方式,主动提供该视障者有关该来员的信息,才是最符合人类直观的沟通方法。
[0005]由于人工智能的发展,利用机器学习来提高导盲机器人的能力,乃为业界发展的主要趋势,由于技术的逐渐成熟,对于环境的识别,已经迈向实用的阶段。
[0006]然而,目前的训练方法,只能令机器人发出模糊笼统的语句,并无法调整句子的变化性与自然性,故视障者并无法由导盲机器人发出的语句,判断来员的身份,或是前方人员的动作,而仍需由他人提供协助,无法满足需求。
[0007]为此,专利技术人改善训练方法,采用多模型分析以及生成对抗网络(GAN,Generative Adversarial Network)技术学习,得以更精确用自然语言来描述图像,提高语句的变化性与准确性,满足视障者的需求。

技术实现思路

[0008]本专利技术的目的在于提供一种多模型生成对抗网络人机互动图像描述系统的服务机器人,其利用生成对抗网络结合多模型的学习,而能以自然语言准确与多变化的描述图像,为弱势族群提供有效的帮助。
[0009]为了达到以上目的,本专利技术采用的技术方案是:
[0010]一种多模型生成对抗网络人机互动图像描述系统的服务机器人,该机器人包括有:视觉单元,用来记录视觉图像;多模型图像信息模块(Multi

Model Image Caption Module),用来记录该图像内容所包含对象的各种模型信息;多模型信息描述模块(Multi

Model Informative Caption Module),用来提供该多模型图像信息模块的各种该模型信息的描述信息;计算单元,连接该视觉单元、该多模型图像信息模块与该多模型信息描述模块,通过生成对抗网络,自该视觉单元记录的该视觉图像中提取相关该模型信息放入该多模型图像信息模块中,再根据该模型信息产生相关的该描述信息放入该多模型信息描述模块中;语音单元,连接该计算单元,通过语音输出该描述信息。
附图说明
[0011]图1为本专利技术的系统架构图;以及
[0012]图2为本专利技术的方法示意图。
[0013]附图标记说明:100

机器人;110

视觉单元;120

多模型图像信息模块;130

多模型信息描述模块;140

计算单元;150

语音单元;160

生成对抗网络;200

图像;300

来员;310

脸部区域;311

身份识别;312

外观信息;320

肢体区域;321

动作识别;322

行为信息;400

视障者。
具体实施方式
[0014]参见附图1所示,本专利技术提供一种多模型生成对抗网络人机互动图像描述系统的服务机器人100,该机器人100包括有:
[0015]视觉单元110,用来记录视觉图像;
[0016]多模型图像信息模块120,用来记录该图像内容所包含对象的各种模型信息;
[0017]多模型信息描述模块130,用来提供该多模型图像信息模块120的各种该模型信息的描述信息;
[0018]计算单元140,连接该视觉单元110、该多模型图像信息模块120与该多模型信息描述模块130;
[0019]语音单元150,连接该计算单元140,通过语音输出该描述信息。
[0020]根据前述的系统,该计算单元140进一步连接生成对抗网络160,其首先由该视觉单元110拍摄当前的该视觉图像,然后自该视觉图像中提取相关该模型信息放入该多模型图像信息模块120中,再根据该模型信息产生相关的该描述信息放入该多模型信息描述模块130中,最后通过该语音单元150将该描述信息以语音输出。
[0021]如此,本专利技术可以针对该机器人100面对的人物,进行精确识别,提取足以描述该人物身份、动作的相关该描述信息,然后利用人类所能认知具有意义且信息丰富的句子。
[0022]为了提高作业效率,本专利技术的该多模型图像信息模块120,记录有新颖的对象标题、信息描述、光学字符识别和图像标题。
[0023]同样地,为使该机器人100得以用自然方法进行描述,该多模型信息描述模块130,整合身份识别、表情识别、年龄识别、图像描述、密集图像描述以及图像分割六种信息。
[0024]请参阅图2所示,本专利技术的多模型图像信息描述方法,当该机器人100拍摄当前的该图像200时,会以由下而上关注(Bottom

up Attention)的方式,首先针对该图像200中的主要区域,找出来员300位置,然后进一步撷取该来员300的细部特征,例如脸部区域310,根据五官面相、表情

等,进行身份识别311,例如而后转换为描述语句,让该机器人100以语音描述出该来员300的外观信息312,或该人员的健康、情绪

等;更进一步,可以撷取该来员300的肢体区域320,进行动作识别321,然后以语音描述出该来员的行为信息322,为视障者400或等弱势族群提供协助。
[0025]以上实施方式只为说明本专利技术的技术构思及特点,其目的在于让熟悉此项技术的人了解本专利技术的内容并加以实施,并不能以此限制本专利技术的保护范围,凡根据本专利技术精神实质所做的等效变化或修饰,都应涵盖在本专利技术的保护范围内。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模型生成对抗网络人机互动图像描述系统的服务机器人,其特征在于,该机器人包括有:视觉单元,用来记录视觉图像;多模型图像信息模块,用来记录该图像内容所包含对象的各种模型信息;多模型信息描述模块,用来提供该多模型图像信息模块的各种该模型信息的描述信息;计算单元,连接该视觉单元、该多模型图像信息模块与该多模型信息描述模块,通过生成对抗网络,自该视觉单元记录的该视觉图像中提取相关该模型信息放入该多模型图像信息模块中,再根据该模型信息产生相关的该描述...

【专利技术属性】
技术研发人员:罗仁权颜炳郎
申请(专利权)人:颜炳郎
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1