System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于通过迭代生成增强输出内容的设备、方法和程序技术_技高网

用于通过迭代生成增强输出内容的设备、方法和程序技术

技术编号:43514925 阅读:15 留言:0更新日期:2024-12-03 12:06
提供了一种存储指令的非暂时性计算机可读存储介质,所述指令当由设备的至少一个处理器执行时,使得所述设备:呈现基础内容;接收用于选择基础内容的目标区域的用户输入;在所述基础内容上呈现与所选择的所述基础内容的目标区域相对应的指示;接收用于生成输出内容的自然语言输入;以及在所述基础内容的目标区域中,呈现其中所述基础内容被修改以包括所述输出内容的修改后的基础内容,其中,所述输出内容基于所述基础内容、所述目标区域以及所述自然语言输入生成,其中,所述输出内容通过使用人工智能AI模型来生成。

【技术实现步骤摘要】

本公开涉及一种用于通过利用机器学习算法来模仿人脑的功能(诸如认知和判断)的人工智能(ai)系统及其应用。更具体地,本公开涉及通过使用ai的迭代生成改进输出内容。


技术介绍

1、人工智能(ai)系统可以指使机器能够通过学习和自主决策而变得聪明的计算机系统,其不同于现有的基于规则的智能系统。ai系统可以提高其识别率,并且能够通过经验更准确地理解用户偏好。因此,现有的基于规则的智能系统正逐渐被基于深度学习的ai系统取代。

2、ai技术可以包括机器学习(深度学习)和使用机器学习的要素技术。

3、机器学习可以指用于自主分类/学习输入数据的特征的算法技术,而且要素技术是用于使用机器学习算法模拟人脑的功能(诸如认知和决策)的技术,并且包括诸如语言理解、视觉理解、推理/预测、知识表示、运动控制等的

4、例如,可以应用ai技术的各种
如下所示。语言理解是指用于识别应用/处理的人类语言/字符的技术,并且包括自然语言处理、机器翻译、对话系统、问答、语音识别/合成等。视觉理解是指用于以与由人类视觉系统执行的方式相同的方式识别和处理对象的技术,并且包括对象识别、对象跟踪、图像检索、人物识别、场景理解、空间理解、图像增强等。推理/预测是指用于判断信息和逻辑地推断和预测新信息的技术,并且包括基于知识/概率的干扰、优化预测、基于偏好的规划、建议等。知识表示是指用于将关于人类经验的信息作为知识数据自动处理的技术,并且包括知识构建(数据生成/分类)、知识管理(数据利用)等。运动控制是指用于控制车辆自动驾驶和机器人运动的技术,并且包括运动控制(导航、防撞和行驶)、操纵控制(动作控制)等。

5、上述信息仅作为背景信息呈现,以帮助理解本公开。至于上述任何内容是否可以作为适用于本公开的现有技术,没有做出确定,也没有做出断言。


技术实现思路

1、问题的解决方案

2、本公开的各方面是为了至少解决上述问题和/或缺点,并且至少提供下面描述的优点。因此,本公开的一方面是提供一种用于通过使用ai的迭代生成改进输出内容的装置和方法。

3、其他方面将在接下来的描述中部分阐述,并且部分地将从描述中变得明显,或者可以通过所呈现的实施例的实践来了解。

4、根据实施例,可以生成符合用户意图的内容。

5、根据实施例,可以改进生成内容的过程。

6、根据本公开的一方面,提供了一种用于通过迭代生成改进输出内容的设备。该设备包括:存储器,其存储指令;和至少一个处理器,其被配置为执行指令以:接收自然语言输入;通过使用自然语言理解(nlu)模型基于自然语言输入来获得用户意图信息;基于第一用户输入来设置基础内容中的目标区域;基于用户意图信息或第二用户输入来确定输入内容;通过使用神经网络(nn)模型,基于输入内容、目标区域和用户意图信息来生成与基础内容相关的输出内容;通过使用图像字幕(caption)模型来生成用于输出内容的字幕;计算自然语言输入的文本和所生成的输出内容之间的相似度;以及,基于相似度来迭代生成输出内容。

7、在实施例中,基础内容、输入内容和输出内容是图像,并且输出内容通过将输入内容合成到基础内容的目标区域来生成。

8、在实施例中,基础内容包括多个区域,并且目标区域包括通过第一用户输入来从多个区域当中选择的区域。

9、在实施例中,通过使用自动语音识别(asr)模型来将语音输入转换为自然语言输入的文本。

10、在实施例中,基于包括在用户意图信息中的内容信息来确定输入内容。

11、在实施例中,从与内容信息对应的多条内容确定输入内容。

12、在实施例中,多条内容的属性彼此不同。

13、在实施例中,输入内容的属性包括姿势、脸部表情、化妆、头发、服装或配饰中的至少一个,并且输入内容的属性基于包括在用户意图信息中的内容属性信息来确定。

14、在实施例中,nn模型与生成对抗网络(gan)模型相关,并且输出内容由gan模型的生成器生成。

15、在实施例中,输出内容的概率分布对应于真实内容的概率分布。

16、在实施例中,包括在输出内容中的基础内容的概率分布近似于真实内容的概率分布。

17、在实施例中,nn模型与生成对抗网络(gan)模型相关,并且当相似度不满足预定条件时,gan模型的判别器将输出内容标识为虚假内容。

18、在实施例中,输出内容是第一输出内容,并且处理器还被配置为:当相似度不满足预定条件时,执行指令以:通过使用nn模型,基于输入内容、目标区域和用户意图信息来生成不同于第一输出内容的第二输出内容。

19、在实施例中,输入内容是第一输入内容,并且输出内容是第一输出内容,以及,处理器还被配置为:当相似度不满足预定条件时,执行指令以:当相似度不满足预定条件时,确定不同于第一输入内容的第二输入内容,并且通过使用nn模型,基于第二输入内容和目标区域来生成不同于第一输出内容的第二输出内容。

20、在实施例中,处理器还被配置为执行指令以:接收针对输出内容的部分的用户反馈,并且通过使用nn模型来修改输出内容的部分。

21、在实施例中,基础内容包括应用的工作空间,并且输入内容包括位于工作空间中的工作对象。

22、在实施例中,输出内容包括与工作对象相关的动画,并且动画是基于工作对象、用户意图信息和应用的应用编程接口(api)来生成的。

23、在实施例中,用于输出内容的字幕包括用于动画的字幕。

24、在实施例中,将nlu模型、nn模型和图像字幕模型存储在存储器中。

25、根据本公开的另一方面,提供了一种通过迭代生成改进输出内容的方法。该方法包括:接收自然语言输入;通过使用自然语言理解(nlu)模型基于自然语言输入来获得用户意图信息;基于第一用户输入来设置基础内容中的目标区域;基于用户意图信息或第二用户输入来确定输入内容;通过使用神经网络(nn)模型,基于输入内容、目标区域和用户意图信息来生成与基础内容相关的输出内容;通过使用图像字幕模型来生成用于输出内容的字幕;计算自然语言输入的文本和所生成的输出内容之间的相似度;以及,基于相似度来迭代生成输出内容。

26、根据本公开的另一方面,提供了一种计算机可读存储介质。该计算机可读存储介质包括指令,其在由至少一个处理器执行时,使至少一个处理器:接收自然语言输入;通过使用自然语言理解(nlu)模型基于自然语言输入来获得用户意图信息;基于第一用户输入来设置基础内容中的目标区域;基于用户意图信息或第二用户输入来确定输入内容;通过使用神经网络(nn)模型,基于输入内容、目标区域和用户意图信息来生成与基础内容相关的输出内容;通过使用图像字幕模型来生成用于输出内容的字幕;计算自然语言输入的文本和所生成的输出内容之间的相似度;以及,基于相似度来迭代生成输出内容。

27、根据本公开的另一方面,提供一种存储指令的非暂本文档来自技高网...

【技术保护点】

1.一种存储指令的非暂时性计算机可读存储介质,所述指令当由设备的至少一个处理器执行时,使得所述设备:

2.根据权利要求1所述的非暂时性计算机可读存储介质,其中,所述基础内容和所述修改的基础内容是图像。

3.根据权利要求1所述的非暂时性计算机可读存储介质,其中,所述目标区域是基础内容的部分区域。

4.根据权利要求1所述的非暂时性计算机可读存储介质,其中,所述目标区域对应于在所述基础内容中检测到的对象。

5.根据权利要求1所述的非暂时性计算机可读存储介质,其中,所述目标区域的大小或形状中的至少一个是用户可调整的。

6.根据权利要求1所述的非暂时性计算机可读存储介质,

7.根据权利要求1所述的非暂时性计算机可读存储介质,

8.根据权利要求7所述的非暂时性计算机可读存储介质,其中,所述输入内容或所述用户意图信息中的至少一个是通过使用所述AI模型获得的。

9.根据权利要求1所述的非暂时性计算机可读存储介质,其中,所述输出内容通过将对应于所述自然语言输入的输入内容合成到所述基础内容的目标区域中来生成的。

10.根据权利要求1所述的非暂时性计算机可读存储介质,

11.根据权利要求1所述的非暂时性计算机可读存储介质,其中,当所述指令由所述至少一个处理器执行时,还使得所述设备:

12.根据权利要求1所述的非暂时性计算机可读存储介质,其中,当所述指令由所述至少一个处理器执行时,还使得所述设备:

13.根据权利要求1所述的非暂时性计算机可读存储介质,其中,所述输出内容被生成为与所述基础内容相匹配。

14.一种由设备执行的用于修改内容的方法,所述方法包括:

15.一种用于修改内容的设备,所述设备包括:

...

【技术特征摘要】

1.一种存储指令的非暂时性计算机可读存储介质,所述指令当由设备的至少一个处理器执行时,使得所述设备:

2.根据权利要求1所述的非暂时性计算机可读存储介质,其中,所述基础内容和所述修改的基础内容是图像。

3.根据权利要求1所述的非暂时性计算机可读存储介质,其中,所述目标区域是基础内容的部分区域。

4.根据权利要求1所述的非暂时性计算机可读存储介质,其中,所述目标区域对应于在所述基础内容中检测到的对象。

5.根据权利要求1所述的非暂时性计算机可读存储介质,其中,所述目标区域的大小或形状中的至少一个是用户可调整的。

6.根据权利要求1所述的非暂时性计算机可读存储介质,

7.根据权利要求1所述的非暂时性计算机可读存储介质,

8.根据权利要求7所述的非暂时性计算机可读存储介质,其中,所述输入内容或所述...

【专利技术属性】
技术研发人员:白瑞铉柳龙铉柳元皓李海俊郑哲丞S·凯坦洪知延
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1