System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及大数据分析,具体而言,涉及一种直播数据的llm智能分析方法、装置、设备和介质。
技术介绍
1、主播进行一场直播后,会产生大量的数据,如何利用这些数据复盘,找到瓶颈项进行优化,是主播或者直播团队头疼的事情。
2、当前我们从直播平台可以获取粉丝数、直播在线人数、直播销量、直播销售额等数据。传统的做法往往是根据数值的大小,套对应的模版。例如,从平台获取了直播在线人数是1万,则得到“主播这场直播人气值达到1万。”的分析结论。这只是陈述事实,并没有分析该人气的行业水平是高还是低,也没有分析这样的人气值后续该如何保保持或者改进。
3、大语言模型出现后,基于模型预训练过程中的知识的引入,初步具备了一定的数据分析能力,但是生成的内容往往机械、简单,并没有实质性的参考价值,无法得到高质量的分析结果。
4、现有的技术缺少引入行业标杆数据,分析的结果也只是简单的陈述事实,对直播数据的分析不够深层次,没有针对不足提供实质性的建议,这对主播或者运营团队来说没有什么实际价值。同时,大语言模型具备的通用电商知识可以针对缺点生成初步的建议,但是没有提供实质性的策略,对用户来说参考价值不大。
5、有鉴于此,申请人在研究了现有的技术后特提出本申请。
技术实现思路
1、本专利技术提供了一种直播数据的llm智能分析方法、装置、设备和介质,通过引入行业标杆数据和电商知识,弥补了大语言模型生成过程中幻觉严重、内容空洞无价值的不足。
2、第一方面、本专利
3、s1、获取用户提出的与直播数据分析相关的问题。
4、s2、根据所述问题从预先构建的电商知识的向量数据库中检索语义相关的至少一个第一文档内容。
5、s3、根据所述问题从预先构建的电商知识的知识图谱中检索和所述问题中的关键实体相关的至少一个第二文档内容。
6、s4、以所述至少一个第一文档内容和所述至少一个第二文档内容作为大语言模型的prompt中的参考内容输入到用以llm智能分析的大语言模型,获取用户提问的诊断建议。
7、在一个可选的实施例中,步骤s2具体包括步骤s21至步骤s23。
8、s21、通过预先训练好的embedding模型将所述问题转化为问题语义向量。
9、s22、根据所述问题语义向量,基于相似度从预先构建的电商知识的向量数据库中检索相似的向量,获取语义相关的至少一个语句文本。
10、s23、提取所述语句文本的第一预设长度的上文和第二预设长度的下文进行拼接,获取所述第一文档内容。
11、在一个可选的实施例中,步骤s3具体包括步骤s31至步骤s33。
12、s31、根据所述问题,通过大预言模型抽取至少一个关键实体。
13、s32根据问题中的所述关键实体,基于余弦相似度从知识图谱中检索相关的三元组,获取至少一个相关三元组。
14、s33、提取所述相关三元组中的原始文本信息,获取所述第二文档内容。
15、在一个可选的实施例中,所述电商知识的知识图谱基于结构化的电商行业知识文档构建。所述电商知识的知识图谱通过以下步骤构建得到:
16、b1、获取对电商行业知识文档。
17、b2、从所述电商行业知识文档中提取直播数据指标,以获取三元组的实体。其中,所述直播数据指标包括粉丝数、直播销售额、直播客单价、直播人气值、直播销量、直播观看人次和直播停留时长。
18、b3、根据实体,通过大语言模型从所述电商行业知识文档中提取实体之间的关系,获取三元组的关系。
19、b4、根据所述实习和所述关系构成三元组,以获取知识图谱。
20、在一个可选的实施例中,所述电商知识的向量数据库基于非结构化的电商知识文章构建。所述向量数据库通过以下步骤构建得到:
21、a1、获取电商知识文章。
22、a2、对所述电商知识文章进行语句分割,获取多个语句文本。
23、a3、通过预先训练好的embedding模型将所述语句文本转换为向量并存入数据库,获取所述向量数据库。
24、在一个可选的实施例中,步骤a2具体包括步骤a21至步骤a22。
25、a21、基于回车符,对所述电商知识文章进行分割,获取多个段落文本。
26、a22、基于语句结束符,对所述段落文本进行分割,获取多个语句文本。其中,所述语句结束符号包括句号、感叹号、问号和换行符。
27、在一个可选的实施例中,所述embedding模型为m3e中文嵌入模型。
28、在一个可选的实施例中,所述embedding模型通过以下训练步骤得到:
29、通过大语言模型对召回的文本与用户问题做相关度判断,只需要给出相关或者不相关即可,获取训练集。
30、通过标注人员,对召回的文本与用户问题做相关度判断,只需要给出相关不相关即可,获取测试集。
31、根据所述训练集构造embedding模型的文本分类训练任务以对embedding模型进行微调,并根据所述测试集对embedding模型进行测试,直至用户问题对整个文档库文本片段的召回的前10条片段的相似度阈值均大于0.5,以获取用以将电商/直播相关文本转化为向量的预先训练好的embedding模型。其中,所述文本分类训练任务的样本标签为0和1,0表示不相关,1表示相关。评估方式时准确率,损失函数是交叉熵损失函数。
32、第二方面、本专利技术实施例提供了一种直播数据的llm智能分析装置,其包含:
33、问题获取模块,用于获取用户提出的与直播数据分析相关的问题。
34、第一文档获取模块,用于根据所述问题从预先构建的电商知识的向量数据库中检索语义相关的至少一个第一文档内容,
35、第二文档获取模块,用于根据所述问题从预先构建的电商知识的知识图谱中检索和所述问题中的关键实体相关的至少一个第二文档内容。
36、诊断模块,用于以所述至少一个第一文档内容和所述至少一个第二文档内容作为大语言模型的prompt中的参考内容输入到用以llm智能分析的大语言模型,获取用户提问的诊断建议。
37、第三方面、本专利技术实施例提供了一种直播数据的llm智能分析设备,其包括处理器、存储器,以及存储在所述存储器内的计算机程序。所述计算机程序能够被所述处理器执行,以实现如第一方面任意一段所述的一种直播数据的llm智能分析方法。
38、第四方面、本专利技术实施例提供了一种计算机可读存储介质。所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面任意一段所述的一种直播数据的llm智能分析方法。
39、通过采用上述技术方案,本专利技术可以取得以下技术效果:
40、本本文档来自技高网...
【技术保护点】
1.一种直播数据的LLM智能分析方法,其特征在于,包含:
2.根据权利要求1所述的一种直播数据的LLM智能分析方法,其特征在于,根据所述问题从预先构建的电商知识的向量数据库中检索语义相关的至少一个第一文档内容,具体包括:
3.根据权利要求1所述的一种直播数据的LLM智能分析方法,其特征在于,根据所述问题从预先构建的电商知识的知识图谱中检索和所述问题中的关键实体相关的至少一个第二文档内容,具体包括:
4.根据权利要求2所述的一种直播数据的LLM智能分析方法,其特征在于,所述电商知识的向量数据库基于非结构化的电商知识文章构建;
5.根据权利要求4所述的一种直播数据的LLM智能分析方法,其特征在于,所述embedding模型为M3E中文嵌入模型;
6.根据权利要求4所述的一种直播数据的LLM智能分析方法,其特征在于,对所述电商知识文章进行语句分割,获取多个语句,具体包括:
7.根据权利要求1至6任意一项所述的一种直播数据的LLM智能分析方法,其特征在于,所述电商知识的知识图谱基于结构化的电商行业知识文档构建;
>8.一种直播数据的LLM智能分析装置,其特征在于,包含:
9.一种直播数据的LLM智能分析设备,其特征在于,包括处理器、存储器,以及存储在所述存储器内的计算机程序;所述计算机程序能够被所述处理器执行,以实现如权利要求1至7任意一项所述的一种直播数据的LLM智能分析方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7任意一项所述的一种直播数据的LLM智能分析方法。
...【技术特征摘要】
1.一种直播数据的llm智能分析方法,其特征在于,包含:
2.根据权利要求1所述的一种直播数据的llm智能分析方法,其特征在于,根据所述问题从预先构建的电商知识的向量数据库中检索语义相关的至少一个第一文档内容,具体包括:
3.根据权利要求1所述的一种直播数据的llm智能分析方法,其特征在于,根据所述问题从预先构建的电商知识的知识图谱中检索和所述问题中的关键实体相关的至少一个第二文档内容,具体包括:
4.根据权利要求2所述的一种直播数据的llm智能分析方法,其特征在于,所述电商知识的向量数据库基于非结构化的电商知识文章构建;
5.根据权利要求4所述的一种直播数据的llm智能分析方法,其特征在于,所述embedding模型为m3e中文嵌入模型;
6.根据权利要求4所述的一种直播数据的llm智能...
【专利技术属性】
技术研发人员:赖昭红,邢东进,杨洪进,
申请(专利权)人:厦门蝉羽网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。