话题评分方法、装置、服务器及计算机可读存储介质制造方法及图纸

技术编号:33294012 阅读:11 留言:0更新日期:2022-05-01 00:19
本发明专利技术实施例提出一种话题评分方法、装置、服务器及计算机可读存储介质,属于数据处理技术领域,方法包括:获取待评分的话题文本,对话题文本进行预处理,得到话题列表,利用预设的词向量生成模型,生成话题列表中的每个话题词的话题向量,根据所有话题向量,计算出包含所有话题向量的最小球,将最小球的半径作为广度评分,通过计算最小球能够考虑各个话题词之间的差异性,从而能够更为客观地反应话题的真实广度。真实广度。真实广度。

【技术实现步骤摘要】
话题评分方法、装置、服务器及计算机可读存储介质


[0001]本专利技术涉及数据处理
,具体而言,涉及一种话题评分方法、装置、服务器及计算机可读存储介质。

技术介绍

[0002]播客应用是一种播放音频或视频的应用软件,用户既能收听他人录制上传的音视频节目,也可以将自己录制的音视频节目上传至播客上进行分享。随着播客应用的普及和商用化,网络上的播客话题(即播客内容)越来越多。一般的,播客应用对播客内容进行理解和质量评分之后,才能根据评分结果进行搜索或推荐。
[0003]目前,通常抽取播客内容话题文本的话题或关键词之后,对抽取的话题或关键词进行评分,并将评分结果作为播客内容的质量评分结果。但是,这种评分方法存在难以反应出话题广度质量的问题。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种话题评分方法、装置、服务器及计算机可读存储介质,其能够改善现有的话题评分方法存在的难以反应出话题广度质量的问题。
[0005]为了实现上述目的,本专利技术实施例采用的技术方案如下。
[0006]第一方面,本专利技术实施例提供一种话题评分方法,采用如下的技术方案。
[0007]一种话题评分方法,所述方法包括:
[0008]获取待评分的话题文本;
[0009]对所述话题文本进行预处理,得到话题列表,所述话题列表包括所述话题文本的多个话题词;
[0010]利用预设的词向量生成模型,生成所述话题列表中的每个所述话题词的话题向量;
[0011]根据所有所述话题向量,计算出包含所有所述话题向量的最小球,将所述最小球的半径作为广度评分。
[0012]进一步地,所述根据所有所述话题向量,计算出包含所有所述话题向量的最小球的步骤,包括:
[0013]基于所述所有话题向量,采用最小球覆盖算法,计算出包含所有所述话题向量的最小球。
[0014]进一步地,所述对所述话题文本进行预处理,得到话题列表的步骤,包括:
[0015]利用预设的文本分类模型,对所述话题文本进行分类,得到第一话题分类结果;
[0016]对所述话题文本进行关键词抽取,得到第二话题分类结果;
[0017]将所述第一话题分类结果和所述第二话题分类结果合并,得到话题列表。
[0018]进一步地,所述对所述话题文本进行关键词抽取,得到第二话题分类结果的步骤,包括:
[0019]对所述话题文本进行分词,得到多个词项;
[0020]计算每个所述词项的词频,将所述词频大于预设值的词项作为话题词,以得到第二话题分类结果,所述第二话题分类结果包括话题词。
[0021]进一步地,所述获取待评分的话题文本的步骤,包括:
[0022]获取待评分的音频文件,对所述音频文件进行解码,得到待评分的话题文本。
[0023]进一步地,所述方法还包括获得词向量生成模型的步骤,该步骤包括:
[0024]获取通用语料,将所述通用语料进行分词,得到多个词项;
[0025]计算出每个词项的词频,根据所述词频建立霍夫曼树,所述霍夫曼树以各所述词项作为节点,以所述词频作为权值;
[0026]基于所述霍夫曼树,对词向量相关模型进行无监督训练,得到词向量生成模型。
[0027]进一步地,所述基于所述霍夫曼树,对词向量相关模型进行无监督训练,得到词向量生成模型的步骤,包括:
[0028]初始化词向量相关模型的参数;
[0029]将各所述词项的词向量作为输入,以输出所述霍夫曼树作为目标,对所述词向量相关模型进行训练,得到词向量生成模型。
[0030]第二方面,本专利技术提供一种话题评分装置,采用如下的技术方案。
[0031]一种话题评分装置,包括接收处理模块和评分模块;
[0032]所述接收处理模块,用于获取待评分的话题文本,以及用于对所述话题文本进行预处理,得到话题列表,所述话题列表包括所述话题文本的多个话题词;
[0033]所述评分模块,用于利用预设的词向量生成模型,生成所述话题列表中的每个所述话题词的话题向量,根据所有所述话题向量,计算出包含所有所述话题向量的最小球,将所述最小球的半径作为广度评分。
[0034]第三方面,本专利技术实施例提供一种服务器,采用如下的技术方案。
[0035]一种服务器,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现如第一方面所述的话题评分方法。
[0036]第四方面,本专利技术实施例提供一种计算机可读存储介质,采用如下的技术方案。
[0037]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的话题评分方法。
[0038]本专利技术实施例提供的话题评分方法、装置、服务器及计算机可读存储介质,通过对待评分的话题文本进行预处理,得到包括多个话题词的话题列表,从而利用词向量生成模型,得到每个话题词的话题向量,进而计算出包含所有话题向量的最小球,并将最小球的半径作为广度评分,通过计算最小球能够考虑各个话题词之间的差异性,从而能够更为客观地反应话题的真实广度,进而能够改善现有的话题评分方法存在的难以反应出话题广度质量的问题。
[0039]为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0040]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0041]图1示出了本专利技术实施例提供的话题评分系统的方框示意图。
[0042]图2示出了图1中服务器的方框示意图。
[0043]图3示出了本专利技术实施例提供的话题评分方法的部分步骤的流程示意图。
[0044]图4示出了图3中步骤S103的部分子步骤的流程示意图。
[0045]图5示出了图4中步骤S103

2的部分子步骤的流程示意图。
[0046]图6示出本专利技术实施例提供的话题评分方法的另一部分步骤的流程示意图。
[0047]图7示出了图6中步骤S303的部分子步骤的流程示意图。
[0048]图8示出了本专利技术实施例提供的话题评分装置的方框示意图。
[0049]图标:100

话题评分系统;110

服务器;120

客户端;130

存储器;140

处理器;150

通信模块;160

话题评分装置;170

接收处理模块;180

评分模块。
具体实施方式
[0050]下本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种话题评分方法,其特征在于,所述方法包括:获取待评分的话题文本;对所述话题文本进行预处理,得到话题列表,所述话题列表包括所述话题文本的多个话题词;利用预设的词向量生成模型,生成所述话题列表中的每个所述话题词的话题向量;根据所有所述话题向量,计算出包含所有所述话题向量的最小球,将所述最小球的半径作为广度评分。2.根据权利要求1所述的,其特征在于,所述根据所有所述话题向量,计算出包含所有所述话题向量的最小球的步骤,包括:基于所述所有话题向量,采用最小球覆盖算法,计算出包含所有所述话题向量的最小球。3.根据权利要求1所述的话题评分方法,其特征在于,所述对所述话题文本进行预处理,得到话题列表的步骤,包括:利用预设的文本分类模型,对所述话题文本进行分类,得到第一话题分类结果;对所述话题文本进行关键词抽取,得到第二话题分类结果;将所述第一话题分类结果和所述第二话题分类结果合并,得到话题列表。4.根据权利要求3所述的话题评分方法,其特征在于,所述对所述话题文本进行关键词抽取,得到第二话题分类结果的步骤,包括:对所述话题文本进行分词,得到多个词项;计算每个所述词项的词频,将所述词频大于预设值的词项作为话题词,以得到第二话题分类结果,所述第二话题分类结果包括话题词。5.根据权利要求1所述的话题评分方法,其特征在于,所述获取待评分的话题文本的步骤,包括:获取待评分的音频文件,对所述音频文件进行解码,得到待评分的话题文本。6.根据权利要求1至5中任一项所述的话题评分方法,其特征在于,所述方法还包括获得词向...

【专利技术属性】
技术研发人员:姚晓远张炫杭江南颜杰钟剑哲未波波罗欢
申请(专利权)人:上海喜马拉雅科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1