文本还原方法、装置及电子设备制造方法及图纸

技术编号:28839141 阅读:19 留言:0更新日期:2021-06-11 23:37
本申请公开了一种文本还原方法、装置及电子设备,属于语言识别技术领域,能够解决现有电子设备还原文本不准确的问题。该方法包括:根据第一字符组,获取第一候选词和第二候选词;确定第一困惑度和第二困惑度,第一困惑度为第一候选词替换目标语句中的第一字符组和第二字符组得到的第一语句对应的困惑度,第二困惑度为第二候选词替换目标语句中的第一字符组和第二字符组得到的第二语句对应的困惑度;在第一困惑度小于第二困惑度的情况下,根据第一候选词,得到还原后的目标文本;或在第二困惑度小于第一困惑度的情况下,根据第二候选词,得到还原后的目标文本。该方法应用于还原文本的场景中。

【技术实现步骤摘要】
文本还原方法、装置及电子设备
本申请属于语言识别
,具体涉及一种文本还原方法、装置及电子设备。
技术介绍
在编辑文本的过程中,若位于该文本的某一行行末的西文字符组(例如英文字符组)不能全部显示在该行时,则可以将该西文字符组从自动换行的位置断开,并在断行的位置添加一个分隔符,例如图1中的标记处1,标记处2,标记处3,标记处4,标记处5,标记处6。目前,如果将上述文本复制到另外一个文件中,那么可以根据这些分隔符自动还原字符组。具体的,可以直接去掉位于该文本行末的分隔符,使得分隔符前后的字符组组成一个字符组,并显示在复制得到的文本中,例如图2所示的文本即为图1所示的文本复制之后得到的文本。然而,在上述过程中,由于有的字符组是复合词,即该字符组本身是包括分隔符的,因此通过直接去掉分隔符的方式,可能会导致还原后的文本中的字符组有误,例如图2中的标记处3,标记处5,标记处6标记的字符组。因此,如何准确还原文本成为一个亟待解决的问题。
技术实现思路
本申请实施例的目的是提供一种文本还原方法、装置及电子设备,能够解决现有的电子设备还原文本不准确的问题。为了解决上述技术问题,本申请是这样实现的:第一方面,本申请实施例提供了一种文本还原方法,该方法包括:根据第一字符组,获取第一候选词和第二候选词,第一字符组为处于待还原的目标文本中的第N行的行末、且以分隔符结尾的字符组,第一候选词为第一字符组与第二字符组组合得到的词,第二候选词为第三字符组与第二字符组组合得到的词,第二字符组为待还原的目标文本中的第N+1行的第一个字符组,第三字符组为第一字符组除去分隔符后得到的字符组;确定第一困惑度和第二困惑度,第一困惑度为第一候选词替换目标语句中的第一字符组和第二字符组得到的第一语句对应的困惑度,第二困惑度为第二候选词替换目标语句中的第一字符组和第二字符组得到的第二语句对应的困惑度;在第一困惑度小于第二困惑度的情况下,根据第一候选词,得到还原后的目标文本;或在第二困惑度小于第一困惑度的情况下,根据第二候选词,得到还原后的目标文本。第二方面,本申请实施例提供了一种文本还原装置,该文本还原装置包括获取模块,确定模块和还原模块。获取模块,用于根据第一字符组,获取第一候选词和第二候选词,第一字符组为处于待还原的目标文本中的第N行的行末、且以分隔符结尾的字符组,第一候选词为第一字符组与第二字符组组合得到的词,第二候选词为第三字符组与第二字符组组合得到的词,第二字符组为待还原的目标文本中的第N+1行的第一个字符组,第三字符组为第一字符组除去分隔符后得到的字符组;确定模块,用于确定第一困惑度和第二困惑度,第一困惑度为第一候选词替换目标语句中的第一字符组和第二字符组得到的第一语句对应的困惑度,第二困惑度为第二候选词替换目标语句中的第一字符组和第二字符组得到的第二语句对应的困惑度;还原模块,用于在第一困惑度小于第二困惑度的情况下,根据第一候选词,得到还原后的目标文本;或在第二困惑度小于第一困惑度的情况下,根据第二候选词,得到还原后的目标文本。第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令,该程序或指令被处理器执行时,实现如上述第一方面中的文本还原方法的步骤。第四方面,本申请实施例提供了一种可读存储介质,该可读存储介质上存储程序或指令,该程序或指令被处理器执行时,实现如上述第一方面中的文本还原方法的步骤。第五方面,本申请实施例提供了一种芯片,该芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如上述第一方面中的文本还原方法的步骤。在本申请实施例中,可以根据第一字符组,获取第一候选词和第二候选词,第一字符组为处于待还原的目标文本中的第N行的行末、且以分隔符结尾的字符组,第一候选词为第一字符组与第二字符组组合得到的词,第二候选词为第三字符组与第二字符组组合得到的词,第二字符组为待还原的目标文本中的第N+1行的第一个字符组,第三字符组为第一字符组除去分隔符后得到的字符组;确定第一困惑度和第二困惑度,第一困惑度为第一候选词替换目标语句中的第一字符组和第二字符组得到的第一语句对应的困惑度,第二困惑度为第二候选词替换目标语句中的第一字符组和第二字符组得到的第二语句对应的困惑度;在第一困惑度小于第二困惑度的情况下,根据第一候选词,得到还原后的目标文本;或在第二困惑度小于第一困惑度的情况下,根据第二候选词,得到还原后的目标文本。通过该方案,由于语句对应的困惑度越小,表示语句越流畅,即语句对应的困惑度越小,语句越准确,因此通过比较根据第一候选词得到的第一语句对应的困惑度和根据第二候选词得到的第二语句对应的困惑度,可以确定第一候选词和第二候选词哪个是正确地,即可以确定目标文本中的第一字符组和第二字符组组成的正确的词,从而可以准确地还原文本。附图说明图1为本申请实施例提供的一种待还原的文本示意图;图2为本申请实施例提供的一种还原后的文本示意图;图3为本申请实施例提供的文本还原方法的流程示意图;图4为本申请实施例提供的文本还原装置的结构示意图;图5为本申请实施例提供的电子设备的结构示意图;图6为本申请实施例提供的电子设备的硬件示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。下面结合附图,通过具体的实施例及其应用场景,对本申请实施例提供的文本还原方法进行详细地说明。如图3所示,本申请实施例提供一种文本还原方法,该方法包括下述的步骤201-步骤204,或步骤201-步骤203和步骤205。需要说明的是,本申请实施例提供的文本还原方法的执行主体可以为文本还原装置,或者该文本还原装置中的用于执行文本还原方法的控制模块,还可以为电子设备。下面将以文本还原装置为例,对本申请实施例提供的文本还原方法进行示例本文档来自技高网...

【技术保护点】
1.一种文本还原方法,其特征在于,所述方法包括:/n根据第一字符组,获取第一候选词和第二候选词,所述第一字符组为处于待还原的目标文本中的第N行的行末、且以分隔符结尾的字符组,所述第一候选词为所述第一字符组与第二字符组组合得到的词,所述第二候选词为第三字符组与所述第二字符组组合得到的词,所述第二字符组为待还原的所述目标文本中的第N+1行的第一个字符组,所述第三字符组为所述第一字符组除去所述分隔符后得到的字符组;/n确定第一困惑度和第二困惑度,所述第一困惑度为所述第一候选词替换目标语句中的所述第一字符组和所述第二字符组得到的第一语句对应的困惑度,所述第二困惑度为所述第二候选词替换目标语句中的所述第一字符组和所述第二字符组得到的第二语句对应的困惑度;/n在所述第一困惑度小于所述第二困惑度的情况下,根据所述第一候选词,得到还原后的所述目标文本;或在所述第二困惑度小于所述第一困惑度的情况下,根据所述第二候选词,得到还原后的所述目标文本。/n

【技术特征摘要】
1.一种文本还原方法,其特征在于,所述方法包括:
根据第一字符组,获取第一候选词和第二候选词,所述第一字符组为处于待还原的目标文本中的第N行的行末、且以分隔符结尾的字符组,所述第一候选词为所述第一字符组与第二字符组组合得到的词,所述第二候选词为第三字符组与所述第二字符组组合得到的词,所述第二字符组为待还原的所述目标文本中的第N+1行的第一个字符组,所述第三字符组为所述第一字符组除去所述分隔符后得到的字符组;
确定第一困惑度和第二困惑度,所述第一困惑度为所述第一候选词替换目标语句中的所述第一字符组和所述第二字符组得到的第一语句对应的困惑度,所述第二困惑度为所述第二候选词替换目标语句中的所述第一字符组和所述第二字符组得到的第二语句对应的困惑度;
在所述第一困惑度小于所述第二困惑度的情况下,根据所述第一候选词,得到还原后的所述目标文本;或在所述第二困惑度小于所述第一困惑度的情况下,根据所述第二候选词,得到还原后的所述目标文本。


2.根据权利要求1所述的方法,其特征在于,所述确定第一困惑度和第二困惑度,包括:
对所述第一候选词和所述第二候选词分别执行以下步骤:
基于目标候选词中的每个字符在所述目标文本中出现的概率,确定目标参数,所述目标候选词为所述第一候选词或所述第二候选词;
根据所述目标参数,确定所述目标候选词对应的困惑度;
其中,所述目标参数包括:目标候选词的合法性值、目标词组的流畅度值和所述目标语句的流畅度值;所述目标词组包括所述目标候选词、第四字符组和第五字符组,所述第四字符组为所述目标文本中位于所述第一字符组之前的字符组,所述第五字符组为所述目标文本中位于所述第二字符组之后的字符组。


3.根据权利要求2所述的方法,其特征在于,所述根据所述目标参数,确定所述目标候选词对应的困惑度,包括:
根据所述目标候选词的合法性值与第一系数的乘积、所述目标词组的流畅度值与第二系数的乘积、所述目标语句的流畅度值与第三系数的乘积之和,得到所述目标候选词对应的困惑度;
其中,所述第一系数、第二系数和第三系数之和等于1。


4.根据权利要求2或3所述的方法,其特征在于,所述目标候选词的合法性值为所述目标文本中,所述目标候选词在所述目标文本中出现的概率;
所述目标词组的流畅度值为所述目标候选词、所述第四字符组和所述第五字符组组成的词组在所述目标文本中出现的概率;
所述目标语句的流畅度值为所述目标语句在所述目标文本中出现的概率。


5.根据权利要求4所述的方法,其特征在于,所述目标候选词的合法性值为目标候选词中的每个字符在所述目标文本中出现的概率之间的乘积;
其中,所述目标候选词中的第K个字符在所述目标文本中出现的概率是指:在所述目标文本中出现第六字符组的情况下出现第K个字符的概率,所述第六字符组由所述目标候选词中的第1个字符至第(K-1)个字符组成,K为大于1的整数。


6.一种文本还原装置,其特征在于,所述文本还原装置包括获取模块,确定模块和还原模块;
获取模块,用于根据第一字符组,获取第一候选词和第二候选词,所述第一字符组为处于待还原的目标文本中的第...

【专利技术属性】
技术研发人员:佟禹
申请(专利权)人:维沃移动通信有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1