文本内容识别的方法、装置、可读存储介质和电子设备制造方法及图纸

技术编号:29094151 阅读:19 留言:0更新日期:2021-06-30 10:03
本发明专利技术实施例公开了一种文本内容识别的方法、装置、可读存储介质和电子设备。本发明专利技术实施例通过获取待分类文本信息以及分类主题对应的关键词列表,然后根据所述关键词列表确定所述待分类文本信息的关键词,所述待分类文本信息的关键词为关键词列表中在所述待分类文本信息中出现的关键词;进而根据所述待分类文本信息的关键词的出现概率确定所述待分类文本信息与所述分类主题关联的分类概率;最后根据所述分类概率确定所述分类文本信息与所述分类主题的相关性;假设分类文本信息为工作人员与用户的沟通记录,分类主题为设定课程时,通过上述方法,可以准确地判断出工作人员是否向用户推荐了适合用户的设定课程。向用户推荐了适合用户的设定课程。向用户推荐了适合用户的设定课程。

【技术实现步骤摘要】
文本内容识别的方法、装置、可读存储介质和电子设备


[0001]本专利技术涉及计算机
,具体涉及一种文本内容识别的方法、装置、可读存储介质和电子设备。

技术介绍

[0002]随着互联网应用的发展,在线教学改变了人们的传统的教学方式,在人们的日常生活使用越来越广泛,在线教学平台有大量的用户并设置了大量的课程,不同的用户由于需求不同,需要的课程也不同,但是用户自己很难在大量的课程中筛选出适合自己的课程,进而需要在线教学平台的工作人员向用户推荐适合用户的课程;在线教学平台需要对工作人员的工作进行监测,确保工作人员向用户推荐了某一门适合用户的课程;现有技术中,通过工作人员与用户的通话记录确定工作人员是否向用户推荐了某一门课程,具体的,判断在通话记录中是否提及该课程对应的至少一个关键词,若提及则判断为工作人员向用户推荐了该课程,若未提及,则判断为工作人员未向用户推荐了该课程;现有技术的方法存在较大的误差,例如,虽然提及了关键词,但实际上并未推荐该课程的情况。
[0003]综上所述,如何准确地判断工作人员是否向用户推荐了适合用户的课程是目前需要解决的问题。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供了一种文本内容识别的方法、装置、可读存储介质和电子设备,提高了判断工作人员是否向用户推荐了适合用户的课程的准确率。
[0005]第一方面,本专利技术实施例提供了一种文本内容识别的方法,该方法包括:获取待分类文本信息;获取分类主题对应的关键词列表,所述关键词列表包括预先确定的多个关键词以及每个关键词的出现概率;根据所述关键词列表确定所述待分类文本信息的关键词,所述待分类文本信息的关键词为关键词列表中在所述待分类文本信息中出现的关键词;根据所述待分类文本信息的关键词对应的出现概率确定所述待分类文本信息与所述分类主题关联的分类概率;根据所述分类概率确定所述分类文本信息与所述分类主题的相关性。
[0006]优选地,所述分类概率用于表征所述待分类文本信息与所述分类主题正相关,所述根据所述出现概率确定所述待分类文本信息与所述分类主题关联的分类概率,具体包括:
[0007]确定多个第一差值,其中,每个所述第一差值为1与所述待分类文本信息的关键词的出现概率的差;
[0008]将所述多个第一差值的连乘积确定为所述分类概率。
[0009]优选地,所述根据所述分类概率确定所述分类文本信息与所述分类主题的相关性,具体包括:
[0010]响应于所述分类概率小于预先设置的阈值,确定所述分类文本信息与所述分类主题正相关。
[0011]优选地,所述分类概率用于表征所述待分类文本信息与所述分类主题负相关,所述根据所述出现概率确定所述待分类文本信息与所述分类主题关联的分类概率,具体包括:
[0012]将所述待分类文本信息的关键词的出现概率的连乘积确定为所述分类概率。
[0013]优选地,所述根据所述分类概率确定所述分类文本信息与所述分类主题的相关性,具体包括:
[0014]响应于所述分类概率小于预先设置的阈值,确定所述分类文本信息与所述分类主题负相关。
[0015]优选地,所述关键词列表的确定过程包括:
[0016]获取分类主题对应的历史样本数据集合,以及所述历史样本数据集合对应的至少一个候选关键词,其中,所述历史样本数据包括历史正样本数据和历史负样本数据;
[0017]根据所述历史样本数据确定每个所述候选关键词在所述历史正样本数据与所述历史负样本数据中的出现概率;
[0018]根据所述出现概率确定关键词;
[0019]根据所述关键词与所述出现概率生成所述关键词列表。
[0020]优选地,所述根据所述出现概率确定关键词,具体包括:
[0021]将所述历史正样本数据中的出现概率大于所述历史负样本数据中的出现概率设定倍数的所述候选关键词确定为所述关键词。
[0022]优选地,所述阈值根据受试者工作特征ROC曲线预先确定。
[0023]优选地,所述阈值根据受试者工作特征ROC曲线预先确定,具体包括:
[0024]确定所述ROC曲线的第一比例与第二比例,其中,所述第一比例为在所有实际为正样本时,被正确地判断为正样本的比率,所述第二比例为在所有实际为负样本时,被错误地判断为正样本段比率;
[0025]将所述第一比例与第二比例差的最大值确定为所述阈值。
[0026]优选地,该方法还包括:
[0027]获取待处理音频数据;
[0028]将所述音频数据输入到自动语音识别模型,输出所述待处理文本信息。
[0029]第二方面,本专利技术实施例提供了一种文本内容识别的装置,该装置包括:
[0030]获取单元,用于获取待分类文本信息;
[0031]所述获取单元还用于,获取分类主题对应的关键词列表,所述关键词列表包括预先确定的多个关键词以及每个关键词的出现概率;
[0032]第一确定单元,用于根据所述关键词列表确定所述待分类文本信息的关键词,所述待分类文本信息的关键词为关键词列表中在所述待分类文本信息中出现的关键词;
[0033]第二确定单元,用于根据所述待分类文本信息的关键词对应的出现概率确定所述待分类文本信息与所述分类主题关联的分类概率;
[0034]第三确定单元,用于根据所述分类概率确定所述分类文本信息与所述分类主题的相关性。
[0035]优选地,所述分类概率用于表征所述待分类文本信息与所述分类主题正相关,所述第二确定单元具体用于:
[0036]确定多个第一差值,其中,每个所述第一差值为1与所述待分类文本信息的关键词的出现概率的差;
[0037]将所述多个第一差值的连乘积确定为所述分类概率。
[0038]优选地,所述第三确定单元具体用于:
[0039]响应于所述分类概率小于预先设置的阈值,确定所述分类文本信息与所述分类主题正相关。
[0040]优选地,所述分类概率用于表征所述待分类文本信息与所述分类主题负相关,所述第二确定单元具体还用于:
[0041]将所述待分类文本信息的关键词的出现概率的连乘积确定为所述分类概率。
[0042]优选地,所述第三确定单元具体还用于:
[0043]响应于所述分类概率小于预先设置的阈值,确定所述分类文本信息与所述分类主题负相关。
[0044]优选地,所述关键词列表的确定过程中,所述获取单元还用于:
[0045]获取分类主题对应的历史样本数据集合,以及所述历史样本数据集合对应的至少一个候选关键词,其中,所述历史样本数据包括历史正样本数据和历史负样本数据;
[0046]所述第一确定单元还用于:根据所述历史样本数据确定每个所述候选关键词在所述历史正样本数据与所述历史负样本数据中的出现概率;
[0047]所述第一确定单元还用于:根据所述出现概率确定关键词;
[0048]生成单元,用于根据所述关键词与所述出现概率生成所述关键词列表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本内容识别方法,其特征在于,所述方法包括:获取待分类文本信息;获取分类主题对应的关键词列表,所述关键词列表包括预先确定的多个关键词以及每个关键词的出现概率;根据所述关键词列表确定所述待分类文本信息的关键词,所述待分类文本信息的关键词为关键词列表中在所述待分类文本信息中出现的关键词;根据所述待分类文本信息的关键词对应的出现概率确定所述待分类文本信息与所述分类主题关联的分类概率;根据所述分类概率确定所述分类文本信息与所述分类主题的相关性。2.如权利要求1所述的方法,其特征在于,所述分类概率用于表征所述待分类文本信息与所述分类主题正相关;所述根据所述出现概率确定所述待分类文本信息与所述分类主题关联的分类概率,具体包括:确定多个第一差值,其中,每个所述第一差值为1与所述待分类文本信息的关键词的出现概率的差;将所述多个第一差值的连乘积确定为所述分类概率。3.如权利要求2所述的方法,其特征在于,所述根据所述分类概率确定所述分类文本信息与所述分类主题的相关性,具体包括:响应于所述分类概率小于预先设置的阈值,确定所述分类文本信息与所述分类主题正相关。4.如权利要求1所述的方法,其特征在于,所述分类概率用于表征所述待分类文本信息与所述分类主题负相关;所述根据所述出现概率确定所述待分类文本信息与所述分类主题关联的分类概率,具体包括:将所述待分类文本信息的关键词的出现概率的连乘积确定为所述分类概率。5.如权利要求4所述的方法,其特征在于,所述根据所述分类概率确定所述分类文本信息与所述分类主题的相关性,具体包括:响应于所述分类概率小于预先设置的阈值,确定所述分类文本信息与所述分类主题负相关。6.如权利要求1所述的方法,其特征在于,所述关键词列表的确定过程包括:获取分类主题对应的历史样本数据集合,以及所述历史样本数据集合对应的至少一个候选关键词,其中,所述历史样本数据包括历史正样本数据和历史负样本数据;根据所述历史样本数据确定每个所述候选关键词在所述历史正样本数据与所述历史负样本数据中的出现概率;根据所述出现概率确定关键词;...

【专利技术属性】
技术研发人员:范宁磊陈鹏张锐
申请(专利权)人:北京大米科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1