一种话题挖掘方法及相关装置制造方法及图纸

技术编号:37037036 阅读:18 留言:0更新日期:2023-03-29 19:16
本申请实施例公开了一种话题挖掘方法,用于提升话题挖掘的准确性。本申请实施例方法包括:计算机设备获取第一数据,第一数据用于进行话题挖掘,第一数据的类型包括文本、图片、音频或视频,计算机设备根据话题发现模型确定第一数据的话题,话题发现模型基于机器发现和人工审核确定,人工审核用于修正机器发现后的第二数据,第二数据用于训练话题发现模型,计算机设备根据话题标签库确定第一数据的话题标签,话题标签库用于匹配第一数据的话题所对应的话题标签。的话题标签。的话题标签。

【技术实现步骤摘要】
一种话题挖掘方法及相关装置


[0001]本申请实施例涉及语义识别领域,尤其涉及一种话题挖掘方法及相关装置。

技术介绍

[0002]随着越来越多的政府或企业开始做数据治理,采集的数据积累越来越多且采集的数据更新快,因此需要使用话题标签对采集的数据做更细致的区分或统计。
[0003]目前的话题挖掘技术中,服务器基于采集数据的关键词或已有的分类主题进行话题挖掘,这种基于关键词或者已有分类主题的话题挖掘技术难以全面概括数据。基于关键词的话题挖掘技术也只能挖掘到出现频次比较高的话题,无法对出现频次比较低的话题进行挖掘,而且话题挖掘的准确性低。

技术实现思路

[0004]本申请实施例提供了一种话题挖掘方法及相关装置,用于提升话题挖掘的准确性。
[0005]本申请实施例第一方面提供了一种话题挖掘方法,该方法由计算机设备执行,也可以由计算机设备的部件,例如计算机设备的处理器、芯片、或芯片系统等执行,还可以由能实现全部或部分服务器功能的逻辑模块或软件实现。第一方面提供的方法包括:计算机设备获取第一数据,第一数据用于进行话题挖掘,第一数据的类型包括文本、图片、音频或视频,计算机设备根据话题发现模型确定第一数据的话题,话题发现模型基于机器发现和人工审核确定,机器发现用于基于话题模板选择训练话题发现模型的训练数据,人工审核用于修正机器发现后的第二数据,第二数据用于训练话题发现模型,计算机设备根据话题标签库确定第一数据的话题标签,话题标签库用于匹配第一数据的话题所对应的话题标签。
[0006]本申请实施例中计算机设备基于话题发现模型和话题标签库进行话题挖掘,其中构建的话题发现模型基于机器发现和人工审核后的训练数据训练生成,本申请实施例引入的话题发现模型提升了话题挖掘准确性。
[0007]基于第一方面,一种可能的实施方式中,计算机设备根据第二数据训练话题发现模型,第二数据包括历史数据中抽取的训练数据,该第二数据为多模态的特征数据,第二数据包括多种话题场景下的数据,第二数据的类型包括文本、图片、音频或视频。
[0008]本申请实施例中第二数据为从大量历史抽取的训练数据,进一步提升了话题发现模型训练的准确性,另外第二数据可以是多种类型的训练数据,从而提升本申请实施例中话题发现模型对多种类型的数据的话题挖掘的能力。
[0009]基于第一方面,一种可能的实施方式中,计算机设备基于机器发现生成第二数据的话题,机器发现包括通过话题模板识别第二数据,计算机设备通过话题模板识别后,由人工审核第二数据和第二数据的话题,审核后的第二数据以及第二数据的话题作为话题发现模型的训练数据,具体的,计算机设备基于第一人工审核指令审核第二数据的话题,第一人
工审核指令包括保留、删除或修改。
[0010]本申请实施例中计算机设备在训练话题发现模型的过程中,计算机设备利用基于话题模板的机器发现生成训练数据的话题,减少了人工确定训练数据话题的工作,同时,人工审核机器发现生成的训练数据的话题,进一步提升了话题发现模型训练的准确性。
[0011]基于第一方面,一种可能的实施方式中,计算机设备基于第一人工审核指令审核第二数据的话题之后,计算机设备根据第一人工审核指令审核后的数据训练话题发现模型,具体的,计算机设备将人工审核后的训练数据以及训练数据的话题分为训练集数据和测试集数据,训练集数据用户训练话题发现模型,测试集数据用于测试话题发现模型的训练效果,计算机设备通过机器评估训练完成的话题发现模型,机器评估用于评估话题发现模型输出话题的准确性。当机器评估话题发现模型识别的话题不准确时,则选取新的训练训练数据由人工审核后继续训练话题发现模型。
[0012]本申请实施例中计算机设备训练话题发现模型之后,由机器评估话题发现模型训练的准确性,从而进一步提升了话题发现模型的识别准确性。
[0013]基于第一方面,一种可能的实施方式中,计算机设备基于话题发型模型确定第三数据的话题,第三数据包括部分或全部的历史数据,第三数据的类型包括文本、图片、音频或视频,计算机设备对第三数据的话题聚类生成第三数据的话题标签,计算机设备基于第二人工审核指令和机器判定更新话题标签库,第二人工审核指令用于审核第三数据的话题标签,机器判定用于校验人工审核后的第三数据的话题标签,机器判定还用于校验人工审核后的第三数据的话题标签的唯一性和相关性。
[0014]本申请实施例中基于话题发现模型识别出话题之后,通过聚类方法对相似的话题进行聚合,从而减少了人工审核的工作量,在较短时间内就可以基于历史大量数据构建话题标签库,从而提升了话题标签库的创建效率。
[0015]本申请实施例中计算机设备在创建话题标签库的过程中,构建完成话题标签库之后还要基于人工审核和机器判定提升话题标签库的话题标签与话题的匹配准确性。
[0016]基于第一方面,一种可能的实施方式中,计算机设备根据话题标签库确定第一数据的话题标签的过程中,当话题标签库未匹配第一数据的话题,计算机设备基于人工批注确定第一数据的话题标签。
[0017]本申请实施例中计算机设备在进行数据挖掘时,话题匹配的过程中加入了人工批注,满足不同用户对话题标签库构建的不同需求,进一步提升了话题挖掘的准确性。
[0018]基于第一方面,一种可能的实施方式中,计算机设备基于人工批注确定第一数据的话题标签之后,计算机设备将第一数据的话题标签更新至话题标签库。
[0019]本申请实施例中计算机设备在进行数据挖掘时,加入了基于人工审核的话题标签库是实时更新,进一步提升了话题挖掘的准确性。
[0020]本申请实施例第二方面提供了一种话题挖掘装置,该话题挖掘装置包括接口单元和处理单元,接口单元用于获取第一数据,第一数据用于进行话题挖掘,第一数据的类型包括文本、图片、音频或视频。处理单元用于根据话题发现模型确定第一数据的话题,话题发现模型基于机器发现和人工审核确定,人工审核用于修正机器发现后的第二数据,第二数据用于训练话题发现模型,处理单元还用于根据话题标签库确定第一数据的话题标签,话题标签库用于匹配第一数据的话题所对应的话题标签。
[0021]基于第二方面,一种可能的实施方式中,处理单元还用于根据第二数据训练话题发现模型,第二数据包括历史数据中抽取的训练数据,第二数据的类型包括文本、图片、音频或视频。
[0022]基于第二方面,一种可能的实施方式中,处理单元还用于基于机器发现生成第二数据的话题,机器发现包括通过话题模板识别第二数据,基于第一人工审核指令审核第二数据的话题,第一人工审核指令包括保留、删除或修改。
[0023]基于第二方面,一种可能的实施方式中,处理单元还用于根据第一人工审核指令审核后的数据训练话题发现模型,通过机器评估训练完成的话题发现模型,机器评估用于评估话题发现模型输出话题的准确性。
[0024]基于第二方面,一种可能的实施方式中,处理单元还用于基于话题发型模型确定第三数据的话题,第三数据包括部分或全部的历史数据,第三数据的类型包括文本、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种话题挖掘方法,其特征在于,包括:计算机设备获取第一数据,所述第一数据用于进行话题挖掘,所述第一数据的类型包括文本、图片、音频或视频;所述计算机设备根据话题发现模型确定所述第一数据的话题,所述话题发现模型基于机器发现和人工审核确定,所述人工审核用于修正所述机器发现后的第二数据,所述第二数据用于训练所述话题发现模型;所述计算机设备根据话题标签库确定所述第一数据的话题标签,所述话题标签库用于匹配所述第一数据的话题所对应的话题标签。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:所述计算机设备根据所述第二数据训练所述话题发现模型,所述第二数据包括历史数据中抽取的训练数据,所述第二数据的类型包括文本、图片、音频或视频。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:所述计算机设备基于机器发现生成所述第二数据的话题,所述机器发现包括通过话题模板识别所述第二数据;所述计算机设备基于第一人工审核指令审核所述第二数据的话题,所述第一人工审核指令包括保留、删除或修改。4.根据权利要求3所述的方法,其特征在于,所述计算机设备基于第一人工审核指令审核所述第二数据的话题之后,所述方法还包括:所述计算机设备根据所述第一人工审核指令审核后的数据训练所述话题发现模型;所述计算机设备通过机器评估训练完成的所述话题发现模型,所述机器评估用于评估所述话题发现模型输出话题的准确性。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:所述计算机设备基于所述话题发型模型确定所述第三数据的话题,所述第三数据包括部分或全部的历史数据,所述第三数据的类型包括文本、图片、音频或视频;所述计算机设备对所述第三数据的话题聚类生成所述第三数据的话题标签;所述计算机设备基于第二人工审核指令和机器判定更新所述话题标签库,所述第二人工审核指令用于审核所述第三数据的话题标签,所述机器判定用于校验人工审核后的所述第三数据的话题标签。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述计算机设备根据话题标签库确定所述第一数据的话题标签包括:当所述话题标签库未匹配所述第一数据的话题,所述计算机设备基于人工批注确定所述第一数据的话题标签。7.根据权利要求6所述的方法,其特征在于,所述计算机设备基于人工批注确定所述第一数据的话题标签之后,所述方法还包括:所述计算机设备将所述第一数据的话题标签更新至所述话题标签库。8.一种话题挖掘装置,其特征在于,包括:接口单元,用于获取第一数据,所述第一数据用于进行话题挖掘,所述第一数据...

【专利技术属性】
技术研发人员:蔡蔓菁曹高雄李明磊
申请(专利权)人:华为云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1