一种基于智能音箱的音乐生成的方法、装置和系统制造方法及图纸

技术编号：44027367 阅读：9 留言：0更新日期：2025-01-15 01:09

本发明专利技术实施例公开了一种基于智能音箱的音乐生成的方法、装置和系统。本发明专利技术实施例中，通过获取用户语音指令信息；将用户语音指令信息转换为用户文本指令，并根据用户语音指令信息确定用户的声纹特征；根据用户文本指令确定歌词文本，并根据歌词文本生成歌词向量特征；根据用户文本指令确定参考曲目信息，并根据参考曲目信息生成音频向量特征；根据用户的声纹特征确定所述用户的历史音频信息，将用户语音指令信息和所述历史音频信息进行特征提取，确定用户的目标声纹特征；将所述歌词向量特征、音频向量特征和所述目标声纹特征输入到大型语言模型中，生成实时目标音频流。通过上述方法，可以简单快速的为用户生成个性化音乐，提高用户的体验。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，更具体地，涉及一种基于智能音箱的音乐生成的方法、装置和系统。

技术介绍

1、近年来，随着人工智能技术的发展，各种智能设备进入到人们的日常生活中，为人们的生活提供了很多便利，以智能音箱为例，智能音箱做为智能家居的核心组成部分，已经从简单的语音助手进化成为集娱乐、教育、生活服务于一体的多功能平台；用户对智能音箱的期待不再局限于基本的语音交互和播放控制，而是希望获得更加个性化、沉浸式的多方位体验；以智能音箱生成音乐为例，传统的智能音箱依赖于预设的音乐库和流媒体服务，缺乏个性化的音乐创作能力。

2、现有技术中，为了生成个性化的音乐，采用基于声音的音乐生成方案和基于文本的音乐生成方案，其中，上述基于声音的音乐生成方案中需要用户自己录制一段较长时间的声音，虽然可以据此进行个性化创造，但是长时间的声音录制过程对于用户来说是一种负担，容易导致用户在体验过程中感到厌烦或失去耐心，从而导致用户流失；上述基于文本的音乐生成方案中将文本输入到智能体或插件中生成音乐，但是通过智能体agent或插件进行的文本生音乐生成受限于系统架构，用户在触发音乐生成任务后至少2分钟至3分钟内无法与用户进行交互，只能等待生成结束后再进行音乐播放，严重影响了用户体验，并且该方案无法提供个性化的音色匹配，使得用户的参与感较弱。

3、综上所述，如何简单快速的为用户生成个性化音乐，提高用户的体验，是目前需要解决的问题。

技术实现思路

1、有鉴于此，本专利技术实施例提供了一种基于智能音箱的

2、第一方面，本专利技术实施例提供了一种基于智能音箱的音乐生成的方法，所述方法包括：

3、获取用户语音指令信息；

4、将所述用户语音指令信息转换为用户文本指令，并根据所述用户语音指令信息确定用户的声纹特征；

5、根据所述用户文本指令确定歌词文本，并根据所述歌词文本生成歌词向量特征；

6、根据所述用户文本指令确定参考曲目信息，并根据所述参考曲目信息生成音频向量特征；

7、根据所述用户的声纹特征确定所述用户的历史音频信息，将所述用户语音指令信息和所述历史音频信息进行特征提取，确定用户的目标声纹特征；

8、将所述歌词向量特征、音频向量特征和所述目标声纹特征输入到大型语言模型中，生成实时目标音频流。

9、可选的，所述方法还包括：

10、将所述实时目标音频流通过网关输出到智能音箱。

11、可选的，所述方法还包括：

12、将所述用户文本指令进行意图识别，响应于所述意图识别的结果为音乐生成，确定所述文本指令的至少一个参数；

13、响应于所述至少一个参数为所述音乐生成的全部必要参数，调用音乐生成服务，其中，所述音乐生成服务表示通过大型语言模型生成实时目标音频流。

14、可选的，所述方法还包括：

15、响应于所述至少一个参数为所述音乐生成的非全部必要参数，向智能音箱发送重新获取指令，其中，所述重新获取指令用于控制所述智能音箱重新向用户获取用户语音指令信息。

16、可选的，所述根据所述用户文本指令确定歌词文本，并根据所述歌词文本生成歌词向量特征，具体包括：

17、将所述用户文本指令输出到基础大模型，生成所述歌词文本；

18、将所述歌词文本输入到文本编码器，生成歌词向量特征。

19、可选的，所述根据所述用户文本指令确定参考曲目信息，并根据所述参考曲目信息生成音频向量特征，具体包括：

20、确定所述用户文本指令中的情感词；

21、根据所述情感词查询参考音源库，确定参考曲目信息；

22、将所述参考曲目信息输入到音频编码器，生成音频向量特征。

23、可选的，所述获取用户语音指令信息，具体包括：

24、接收到智能音箱通过网关发送的指令音频流；

25、根据语音活性检测确定用户完成指令下发，确定用户发出的所述用户语音指令信息。

26、可选的，所述将所述实时目标音频流通过网关输出到智能音箱，具体包括：

27、将所述实时目标音频流发送至内容平台；

28、所述内容平台通过网关向所述智能音箱发送播放指令；

29、接收到所述智能音箱发送的读取指令，所述内容平台发送所述实时目标音频流到所述智能音箱。

30、第二方面，本专利技术实施例提供了一种基于智能音箱的音乐生成的方法，所述方法包括：

31、获取用户发送的音频指令，生成指令音频流；

32、将所述指令音频流通过网关发送给云端服务器，并根据闭麦检测确定用户完成指令下发，确定用户发出的所述用户语音指令信息；

33、将所述用户语音指令信息转换为用户文本指令；

34、将所述用户文本指令通过网关发送给所述云端服务器；

35、接收到所述云端服务器通过网关发送的实时目标音频流，其中，所述实时目标音频流是所述云端服务器通过将歌词向量特征、音频向量特征和目标声纹特征输入到大型语言模型中生成的。

36、可选的，所述方法还包括：

37、接收到所述云端服务器通过网关发送的重新获取指令；

38、向用户发送追问信息，重新获取所述用户语音指令信息。

39、可选的，所述方法还包括：

40、接收到用户发送的唤醒词；

41、将空闲状态切换为工作状态，其中，所述空闲状态表示智能音箱不能接收所述指令音频流，所述工作状态表示所述智能音箱可以接收所述指令音频流。

42、可选的，所述方法还包括：

43、接收到所述云端服务器的内容平台通过网关发送的播放指令；

44、通过所述网关向所述云端服务器的内容平台发送读取指令，其中，所述读取指令用于向所述云端服务器的内容平台获取所述实时目标音频流。

45、第三方面，本专利技术实施例提供了一种基于智能音箱的音乐生成的装置，所述装置包括：

46、第一获取单元，用于获取用户语音指令信息；

47、第一处理单元，用于将所述用户语音指令信息转换为用户文本指令，并根据所述用户语音指令信息确定用户的声纹特征；

48、第一生成单元，用于根据所述用户文本指令确定歌词文本，并根据所述歌词文本生成歌词向量特征；

49、第二生成单元，用于根据所述用户文本指令确定参考曲目信息，并根据所述参考曲目信息生成音频向量特征；

50、第一确定单元，用于根据所述用户的声纹特征确定所述用户的历史音频信息，将所述用户语音指令信息和所述历史音频信息进行特征提取，确定用户的目标声纹特征；

51、第三生成单元，用于将所述歌词向量特征、音频向量特征和所述目标声纹特征输入到大型语言模型中，生成实时目标音频流。

52、可选的，所述本文档来自技高网...

【技术保护点】

1.一种基于智能音箱的音乐生成的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.一种基于智能音箱的音乐生成的方法，其特征在于，所述方法包括：

6.一种基于智能音箱的音乐生成的装置，其特征在于，所述装置包括：

7.一种基于智能音箱的音乐生成的装置，其特征在于，所述装置包括：

8.一种基于智能音箱的音乐生成系统，其特征在于，包括：

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-5中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法。

【技术特征摘要】

1.一种基于智能音箱的音乐生成的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.一种基于智能音箱的音乐生成的方法，其特征在于，所述方法包括：

6.一种基于智能音箱的音乐生成的装置，其特征在于，所述装置包括：

7.一种基于智能音箱的音...

【专利技术属性】
技术研发人员：段文强，
申请(专利权)人：浙江未来精灵人工智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人