【技术实现步骤摘要】
文本还原方法、装置及电子设备
本申请属于语言识别
,具体涉及一种文本还原方法、装置及电子设备。
技术介绍
在编辑文本的过程中,若位于该文本的某一行行末的西文字符组(例如英文字符组)不能全部显示在该行时,则可以将该西文字符组从自动换行的位置断开,并在断行的位置添加一个分隔符,例如图1中的标记处1,标记处2,标记处3,标记处4,标记处5,标记处6。目前,如果将上述文本复制到另外一个文件中,那么可以根据这些分隔符自动还原字符组。具体的,可以直接去掉位于该文本行末的分隔符,使得分隔符前后的字符组组成一个字符组,并显示在复制得到的文本中,例如图2所示的文本即为图1所示的文本复制之后得到的文本。然而,在上述过程中,由于有的字符组是复合词,即该字符组本身是包括分隔符的,因此通过直接去掉分隔符的方式,可能会导致还原后的文本中的字符组有误,例如图2中的标记处3,标记处5,标记处6标记的字符组。因此,如何准确还原文本成为一个亟待解决的问题。
技术实现思路
本申请实施例的目的是提供一种文本还原方法、装置及电子设备,能够解决现有的电子设备还原文本不准确的问题。为了解决上述技术问题,本申请是这样实现的:第一方面,本申请实施例提供了一种文本还原方法,该方法包括:根据第一字符组,获取第一候选词和第二候选词,第一字符组为处于待还原的目标文本中的第N行的行末、且以分隔符结尾的字符组,第一候选词为第一字符组与第二字符组组合得到的词,第二候选词为第三字符组与第二字符组组合得到的词,第二字符组为待还 ...
【技术保护点】
1.一种文本还原方法,其特征在于,所述方法包括:/n根据第一字符组,获取第一候选词和第二候选词,所述第一字符组为处于待还原的目标文本中的第N行的行末、且以分隔符结尾的字符组,所述第一候选词为所述第一字符组与第二字符组组合得到的词,所述第二候选词为第三字符组与所述第二字符组组合得到的词,所述第二字符组为待还原的所述目标文本中的第N+1行的第一个字符组,所述第三字符组为所述第一字符组除去所述分隔符后得到的字符组;/n确定第一困惑度和第二困惑度,所述第一困惑度为所述第一候选词替换目标语句中的所述第一字符组和所述第二字符组得到的第一语句对应的困惑度,所述第二困惑度为所述第二候选词替换目标语句中的所述第一字符组和所述第二字符组得到的第二语句对应的困惑度;/n在所述第一困惑度小于所述第二困惑度的情况下,根据所述第一候选词,得到还原后的所述目标文本;或在所述第二困惑度小于所述第一困惑度的情况下,根据所述第二候选词,得到还原后的所述目标文本。/n
【技术特征摘要】
1.一种文本还原方法,其特征在于,所述方法包括:
根据第一字符组,获取第一候选词和第二候选词,所述第一字符组为处于待还原的目标文本中的第N行的行末、且以分隔符结尾的字符组,所述第一候选词为所述第一字符组与第二字符组组合得到的词,所述第二候选词为第三字符组与所述第二字符组组合得到的词,所述第二字符组为待还原的所述目标文本中的第N+1行的第一个字符组,所述第三字符组为所述第一字符组除去所述分隔符后得到的字符组;
确定第一困惑度和第二困惑度,所述第一困惑度为所述第一候选词替换目标语句中的所述第一字符组和所述第二字符组得到的第一语句对应的困惑度,所述第二困惑度为所述第二候选词替换目标语句中的所述第一字符组和所述第二字符组得到的第二语句对应的困惑度;
在所述第一困惑度小于所述第二困惑度的情况下,根据所述第一候选词,得到还原后的所述目标文本;或在所述第二困惑度小于所述第一困惑度的情况下,根据所述第二候选词,得到还原后的所述目标文本。
2.根据权利要求1所述的方法,其特征在于,所述确定第一困惑度和第二困惑度,包括:
对所述第一候选词和所述第二候选词分别执行以下步骤:
基于目标候选词中的每个字符在所述目标文本中出现的概率,确定目标参数,所述目标候选词为所述第一候选词或所述第二候选词;
根据所述目标参数,确定所述目标候选词对应的困惑度;
其中,所述目标参数包括:目标候选词的合法性值、目标词组的流畅度值和所述目标语句的流畅度值;所述目标词组包括所述目标候选词、第四字符组和第五字符组,所述第四字符组为所述目标文本中位于所述第一字符组之前的字符组,所述第五字符组为所述目标文本中位于所述第二字符组之后的字符组。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标参数,确定所述目标候选词对应的困惑度,包括:
根据所述目标候选词的合法性值与第一系数的乘积、所述目标词组的流畅度值与第二系数的乘积、所述目标语句的流畅度值与第三系数的乘积之和,得到所述目标候选词对应的困惑度;
其中,所述第一系数、第二系数和第三系数之和等于1。
4.根据权利要求2或3所述的方法,其特征在于,所述目标候选词的合法性值为所述目标文本中,所述目标候选词在所述目标文本中出现的概率;
所述目标词组的流畅度值为所述目标候选词、所述第四字符组和所述第五字符组组成的词组在所述目标文本中出现的概率;
所述目标语句的流畅度值为所述目标语句在所述目标文本中出现的概率。
5.根据权利要求4所述的方法,其特征在于,所述目标候选词的合法性值为目标候选词中的每个字符在所述目标文本中出现的概率之间的乘积;
其中,所述目标候选词中的第K个字符在所述目标文本中出现的概率是指:在所述目标文本中出现第六字符组的情况下出现第K个字符的概率,所述第六字符组由所述目标候选词中的第1个字符至第(K-1)个字符组成,K为大于1的整数。
6.一种文本还原装置,其特征在于,所述文本还原装置包括获取模块,确定模块和还原模块;
获取模块,用于根据第一字符组,获取第一候选词和第二候选词,所述第一字符组为处于待还原的目标文本中的第...
【专利技术属性】
技术研发人员:佟禹,
申请(专利权)人:维沃移动通信有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。