本发明专利技术实施例提供了一种文本识别方法、文本识别装置、存储介质和电子设备。本发明专利技术实施例获取待识别文本中各词语的词语特征,并基于预先训练的分类模型,进而根据各词语的词语特征确定用于表征各词语的语种的词语类别,从而根据各词语的词语类别确定待识别文本的文本类别。在本发明专利技术实施例中,待识别文本由用户终端上传,因此基于本发明专利技术实施例的方法可以对待识别文本进行较为准确的识别,以较为准确地确定用户所输入的语言,从而为后续提升教学过程的针对性提供较为准确的数据支撑。
【技术实现步骤摘要】
文本识别方法、文本识别装置、存储介质和电子设备
本专利技术公开涉及数据处理
,具体涉及一种文本识别方法、文本识别装置、存储介质和电子设备。
技术介绍
随着计算机
的不断发展,各行各业的信息化程度越来越高。以教育行业为例,越来越多的学校、教育平台等会选择通过线上的方式对学习者进行知识分享、对学习者的学业水平进行检验等。但是学习者可能来自不同的国家,可能会选择不同的语言对题目进行作答,因此对于学校、教育平台等,如何分辨学习者所输入的语言是十分有必要的。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种文本识别方法、文本识别装置、存储介质和电子设备,用于根据用户上传的文本较为准确地确定用户所输入的语言,从而为后续提升教学过程的针对性提供较为准确的数据支撑。根据本专利技术实施例的第一方面,提供一种文本识别方法,所述方法包括:获取待识别文本,所述待识别文本包括至少一个词语;分别确定所述待识别文本中各词语对应的第一词语特征;基于预先训练的分类模型,根据各所述第一词语特征获取各词语的词语类别,所述词语类别用于表征所述词语对应的语种;根据各词语的所述词语类别确定所述待识别文本的文本类别,所述文本类别用于表征所述待识别文本对应的语种。优选地,所述分类模型通过如下方式训练:获取多个目标词语,所述目标词语为用于作为所述分类模型的训练样本的词语;根据各所述目标词语的第二词语特征以及对应的类别标识确定样本集合;根据所述样本集合对所述分类模型进行训练,直至所述分类模型的损失函数达到预期。优选地,所述根据所述样本集合对所述分类模型进行训练,直至所述分类模型的损失函数达到预期包括:将所述样本集合随机划分为训练样本集合和测试样本集合,所述训练样本集合以及所述测试样本集合均包括至少一个所述第二词语特征以及对应的所述类别标识;以所述训练样本集合中的各所述第二词语特征为输入,以对应的所述类别标识为输出,对所述分类模型进行训练;以所述测试样本集合中的至少一个所述第二词语特征为输入,基于所述分类模型获取对应的输出值,并根据所述输出值以及对应的所述类别标识确定误差值,以判定所述损失函数是否达到预期。优选地,所述分别根据各词语的所述词语类别确定所述待识别文本的文本类别包括:响应于所述待识别文本由一个词语组成,将所述词语类别确定为所述文本类别;响应于所述待识别文本由多个词语组成,确定所述待识别文本中的目标类别作为所述文本类别,所述目标类别根据目标词语集合的类别确定,所述目标词语集合包括词语类别相同且数量满足第二条件的词语。优选地,所述待识别文本中至少一个词语为名称;所述第一词语特征包括词语的词语长度、各字符对对应的距离总和、相同字符组成的字符对的数量、字符、字符对以及各字符在字符表中的位置中的至少一项,所述字符为组成所述词语的基本单位,所述字符对包括词语中相邻的两个字符,所述距离总和根据字符在字符表中的位置确定。根据本专利技术实施例的第二方面,提供一种文本识别装置,所述装置包括:第一获取单元,用于获取待识别文本,所述待识别文本包括至少一个词语;第一确定单元,用于分别确定所述待识别文本中各词语对应的第一词语特征;第二获取单元,用于基于预先训练的分类模型,根据各所述第一词语特征获取各词语的词语类别,所述词语类别用于表征所述词语对应的语种;第二确定单元,用于根据各词语的所述词语类别确定所述待识别文本的文本类别,所述文本类别用于表征所述待识别文本对应的语种。优选地,所述第二确定单元包括:第一确定子单元,用于响应于所述待识别文本由一个词语组成,将所述词语类别确定为所述文本类别;第二确定子单元,用于响应于所述待识别文本由多个词语组成,确定所述待识别文本中的目标类别作为所述文本类别,所述目标类别根据目标词语集合的类别确定,所述目标词语集合包括词语类别相同且数量满足第二条件的词语。优选地,所述待识别文本中至少一个词语为名称;所述第一词语特征包括词语的词语长度、各字符对对应的距离总和、相同字符组成的字符对的数量、字符、字符对以及各字符在字符表中的位置中的至少一项,所述字符为组成所述词语的基本单位,所述字符对包括词语中相邻的两个字符,所述距离总和根据字符在字符表中的位置确定。根据本专利技术实施例的第三方面,提供一种计算机可读存储介质,其上存储计算机程序指令,其中,所述计算机程序指令在被处理器执行时实现如第一方面中任一项所述的方法。根据本专利技术实施例的第四方面,提供一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中任一项所述的方法。本专利技术实施例获取待识别文本中各词语的词语特征,并基于预先训练的分类模型,进而根据各词语的词语特征确定用于表征各词语的语种的词语类别,从而根据各词语的词语类别确定待识别文本的文本类别。在本专利技术实施例中,待识别文本由用户终端上传,因此基于本专利技术实施例的方法可以对待识别文本进行较为准确的识别,以较为准确地确定用户所输入的语言,从而为后续提升教学过程的针对性提供较为准确的数据支撑。附图说明通过以下参照附图对本专利技术实施例的描述,本专利技术的上述以及其它目的、特征和优点将更为清楚,在附图中:图1是本专利技术第一实施例的文本识别方法的流程图;图2是本专利技术第一实施例的一种可选的实现方式中训练分类模型的流程图;图3是本专利技术第一实施例的文本识别方法的数据流程图;图4是本专利技术第二实施例的文本识别装置的示意图;图5是本专利技术第三实施例的电子设备的示意图。具体实施方式以下基于实施例对本专利技术进行描述,但是本专利技术并不仅仅限于这些实施例。在下文对本专利技术的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本专利技术。为了避免混淆本专利技术的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。在本专利技术的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本专利技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。在本专利技术实施例中,以对学习者在教学检测过程中上传的待识别文本进行文本识别处理为例进行说明。但是本领域技术人员容易理解,任一待识别文本均可以适用于本专利技术实施例的方法。越来越多的学校、教育平台等会选择通过线上的方式对学习者进行知识分享、对学习者的学业水平进行检验等。学习者在教学过程中可以选择文字或语音的方式对教学本文档来自技高网...
【技术保护点】
1.一种文本识别方法,其特征在于,所述方法包括:/n获取待识别文本,所述待识别文本包括至少一个词语;/n分别确定所述待识别文本中各词语对应的第一词语特征;/n基于预先训练的分类模型,根据各所述第一词语特征获取各词语的词语类别,所述词语类别用于表征所述词语对应的语种;/n根据各词语的所述词语类别确定所述待识别文本的文本类别,所述文本类别用于表征所述待识别文本对应的语种。/n
【技术特征摘要】
1.一种文本识别方法,其特征在于,所述方法包括:
获取待识别文本,所述待识别文本包括至少一个词语;
分别确定所述待识别文本中各词语对应的第一词语特征;
基于预先训练的分类模型,根据各所述第一词语特征获取各词语的词语类别,所述词语类别用于表征所述词语对应的语种;
根据各词语的所述词语类别确定所述待识别文本的文本类别,所述文本类别用于表征所述待识别文本对应的语种。
2.根据权利要求1所述的方法,其特征在于,所述分类模型通过如下方式训练:
获取多个目标词语,所述目标词语为用于作为所述分类模型的训练样本的词语;
根据各所述目标词语的第二词语特征以及对应的类别标识确定样本集合;
根据所述样本集合对所述分类模型进行训练,直至所述分类模型的损失函数达到预期。
3.根据权利要求2所述的方法,其特征在于,所述根据所述样本集合对所述分类模型进行训练,直至所述分类模型的损失函数达到预期包括:
将所述样本集合随机划分为训练样本集合和测试样本集合,所述训练样本集合以及所述测试样本集合均包括至少一个所述第二词语特征以及对应的所述类别标识;
以所述训练样本集合中的各所述第二词语特征为输入,以对应的所述类别标识为输出,对所述分类模型进行训练;
以所述测试样本集合中的至少一个所述第二词语特征为输入,基于所述分类模型获取对应的输出值,并根据所述输出值以及对应的所述类别标识确定误差值,以判定所述损失函数是否达到预期。
4.根据权利要求1所述的方法,其特征在于,所述分别根据各词语的所述词语类别确定所述待识别文本的文本类别包括:
响应于所述待识别文本由一个词语组成,将所述词语类别确定为所述文本类别;
响应于所述待识别文本由多个词语组成,确定所述待识别文本中的目标类别作为所述文本类别,所述目标类别根据目标词语集合的类别确定,所述目标词语集合包括词语类别相同且数量满足第二条件的词语。
5.根据权利要求1所述的方法,其特征在于,所述待识别文本中至少一个词语为名称;
所述第一词语特征包括词语的...
【专利技术属性】
技术研发人员:李凯,
申请(专利权)人:北京大米未来科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。