System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本纠错及纠错模型训练方法、装置、电子设备和介质制造方法及图纸_技高网

文本纠错及纠错模型训练方法、装置、电子设备和介质制造方法及图纸

技术编号:41154256 阅读:18 留言:0更新日期:2024-04-30 18:19
本申请涉及人工智能技术领域,尤其涉及文本纠错及纠错模型训练方法、装置、电子设备和介质,用以提高文本纠错的准确性。其中,方法包括:基于已训练的纠错模型对待纠错的目标文本进行至少一轮的纠错处理得到纠错后文本,每轮纠错处理执行如下过程:基于纠错模型中的编码子网络,提取当前目标文本中每个词元的文本嵌入特征;对于每个词元,将词元的文本嵌入特征分别输入纠错模型中的检错子网络和纠错子网络进行多分类,预测得到词元对应的目标编辑操作和第一预测概率,以及词元对应的目标纠错信息和第二预测概率;对于每个词元,若第一预测概率和第二预测概率满足预设的阈值条件,则基于目标编辑操作和目标纠错信息中的至少一种,对词元进行纠错。

【技术实现步骤摘要】

所属的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。与上述方法实施例基于同一专利技术构思,本申请实施例中还提供了一种电子设备。在一种实施例中,该电子设备可以是服务器,如图1所示的服务器120。在该实施例中,电子设备的结构可以如图18所示,包括存储器1801,通讯模块1803以及一个或多个处理器1802。存储器1801,用于存储处理器1802执行的计算机程序。存储器1801可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。存储器1801可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,ram);存储器1801也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,hdd)或固态硬盘(solid-state drive,ssd);或者存储器1801是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。存储器1801可以是上述存储器的组合。处理器1802,可以包括一个或多个中央处理单元(central processing unit,cpu)或者为数字处理单元等等。处理器1802,用于调用存储器1801中存储的计算机程序时实现上述文本纠错方法。通讯模块1803用于与终端设备和其他服务器进行通信。本申请实施例中不限定上述存储器1801、通讯模块1803和处理器1802之间的具体连接介质。本申请实施例在图18中以存储器1801和处理器1802之间通过总线1804连接,总线1804在图18中以粗线描述,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线1804可以分为地址总线、数据总线、控制总线等。为便于描述,图18中仅用一条粗线描述,但并不描述仅有一根总线或一种类型的总线。存储器1801中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的文本纠错方法。处理器1802用于执行上述的文本纠错方法,例如,从处理器可以执行如图12中所示的步骤。在另一种实施例中,电子设备也可以是其他电子设备,如图1所示的终端设备110。在该实施例中,电子设备的结构可以如图19所示,包括:通信组件1910、存储器1920、显示单元1930、摄像头1940、传感器1950、音频电路1960、蓝牙模块1970、处理器1980等部件。通信组件1910用于与服务器进行通信。在一些实施例中,可以包括电路无线保真(wireless fidelity,wifi)模块,wifi模块属于短距离无线传输技术,电子设备通过wifi模块可以帮助用户收发信息。存储器1920可用于存储软件程序及数据。处理器1980通过运行存储在存储器1920的软件程序或数据,从而执行终端设备110的各种功能以及数据处理。存储器1920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1920存储有使得终端设备110能运行的操作系统。本申请中存储器1920可以存储操作系统及各种应用程序,还可以存储执行本申请实施例文本纠错方法的计算机程序。显示单元1930还可用于显示由用户输入的信息或提供给用户的信息以及终端设备110的各种菜单的图形用户界面(graphical user interface,gui)。具体地,显示单元1930可以包括设置在终端设备110正面的显示屏1932。其中,显示屏1932可以采用液晶显示器、发光二极管等形式来配置。显示单元1930可以用于显示本申请实施例中的客户端的用户界面等。显示单元1930还可用于接收输入的数字或字符信息,产生与终端设备110的用户设置以及功能控制有关的信号输入,具体地,显示单元1930可以包括设置在终端设备110正面的触控屏1931,可收集用户在其上或附近的触摸操作,例如点击按钮,拖动滚动框等。其中,触控屏1931可以覆盖在显示屏1932之上,也可以将触控屏1931与显示屏1932集成而实现终端设备110的输入和输出功能,集成后可以简称触摸显示屏。本申请中显示单元1930可以显示应用程序以及对应的操作步骤。摄像头1940可用于捕获静态图像,用户可以将摄像头1940拍摄的图像通过应用发布。摄像头1940可以是一个,也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,ccd)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,cmos)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给处理器1980转换成数字图像信号。终端设备还可以包括至少一种传感器1950,比如加速度传感器1951、距离传感器1952、指纹传感器1953、温度传感器1954。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。音频电路1960、扬声器1961、传声器1962可提供用户与终端设备110之间的音频接口。音频电路1960可将接收到的音频数据转换后的电信号,传输到扬声器1961,由扬声器1961转换为声音信号输出。终端设备110还可配置音量按钮,用于调节声音信号的音量。另一方面,传声器1962将收集的声音信号转换为电信号,由音频电路1960接收后转换为音频数据,再将音频数据输出至通信组件1910以发送给比如另一终端设备110,或者将音频数据输出至存储器1920以便进一步处理。蓝牙模块1970用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如,终端设备可以通过蓝牙模块1970与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接,从而进行数据交互。处理器1980是终端设备的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器1920内的软件程序,以及调用存储在存储器1920内的数据,执行终端设备的各种功能和处理数据。在一些实施例中,处理器1980可包括一个或多个处理单元;处理器1980还可以集成应用处理器和基带处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,基带处理器主要处理无线通信。可以理解的是,上述基带处理器也可以不集成到处理器1980中。本申请中处理器1980可以运行操作系统、应用程序、用户界面显示及触控响应,以及本申请实施例的文本纠错方法。另外,处理器1980与显示单元1930耦接。在一些可能的实施方式中,本申请提供的文本纠错方法的各个方面还可以实现为一种程序产品的形式,其包括计算机程序,当程序产品在电子设备上运行时,计算机程序用于使电子设备执行本说明书上本文档来自技高网...

【技术保护点】

1.一种文本纠错方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述对所述目标文本进行至少一轮的纠错处理,得到纠错后文本,还包括:

3.如权利要求1所述的方法,其特征在于,通过如下方式确定所述第一预测概率和所述第二预测概率满足预设的阈值条件:

4.如权利要求1所述的方法,其特征在于,所述目标纠错信息包括目标纠错操作;所述基于所述目标编辑操作和所述目标纠错信息中的至少一种,对当前目标文本中的相应词元进行纠错,包括:

5.如权利要求4所述的方法,其特征在于,所述根据比较结果对当前目标文本中的相应词元进行纠错,包括:

6.如权利要求5所述的方法,其特征在于,所述基于所述目标纠错信息,对当前目标文本中的相应词元进行纠错,包括:

7.如权利要求5所述的方法,其特征在于,所述基于所述目标编辑操作,对当前目标文本中的相应词元进行纠错,包括:

8.如权利要求1所述的方法,其特征在于,第一轮纠错处理时的当前目标文本为初始获得的所述待纠错的目标文本;后续每轮纠错处理时的当前目标文本为通过上一轮纠错处理获得的纠错后文本。

9.如权利要求1~8任一项所述的方法,其特征在于,所述检错子网络为包含两个多层感知器的多分类子网络;将所述词元的文本嵌入特征输入所述已训练的纠错模型中的检错子网络进行多分类,预测得到所述词元对应的目标编辑操作和所述目标编辑操作对应的第一预测概率:

10.如权利要求1~8任一项所述的方法,其特征在于,所述纠错子网络为包含两个多层感知器的多分类子网络;将所述词元的文本嵌入特征输入所述已训练的纠错模型中的纠错子网络进行多分类,预测得到所述词元对应的目标纠错信息和所述目标纠错信息对应的第二预测概率,包括:

11.一种纠错模型训练方法,其特征在于,所述方法包括:

12.如权利要求11所述的方法,其特征在于,所述检错子网络为包含两个多层感知器的多分类子网络;将所述词元的文本嵌入特征输入所述待训练的纠错模型中的检错子网络进行多分类,预测得到所述词元对应的第一样本概率,包括:

13.如权利要求11所述的方法,其特征在于,所述纠错子网络为包含两个多层感知器的多分类子网络;将所述词元的文本嵌入特征输入所述待训练的纠错模型中的纠错子网络进行多分类,预测得到所述词元对应的第二样本概率,包括:

14.如权利要求11所述的方法,其特征在于,所述基于所述各训练样本各自对应的第一样本概率、第二样本概率、第三样本概率和相应的样本标签,对所述待训练的纠错模型进行参数调整,包括:

15.如权利要求11~14任一项所述的方法,其特征在于,所述训练样本集中的病句文本通过如下方式构造生成:

16.如权利要求15所述的方法,其特征在于,所述根据获得的词性,对所述正确文本中指定词性的词元进行调整,包括如下至少一种:

17.一种文本纠错装置,其特征在于,包括:

18.一种纠错模型训练装置,其特征在于,包括:

19.一种电子设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~10中任一所述方法的步骤或权利要求11~16中任一所述方法的步骤。

20.一种计算机可读存储介质,其特征在于,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行权利要求1~10中任一所述方法的步骤或权利要求11~16中任一所述方法的步骤。

...

【技术特征摘要】

1.一种文本纠错方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述对所述目标文本进行至少一轮的纠错处理,得到纠错后文本,还包括:

3.如权利要求1所述的方法,其特征在于,通过如下方式确定所述第一预测概率和所述第二预测概率满足预设的阈值条件:

4.如权利要求1所述的方法,其特征在于,所述目标纠错信息包括目标纠错操作;所述基于所述目标编辑操作和所述目标纠错信息中的至少一种,对当前目标文本中的相应词元进行纠错,包括:

5.如权利要求4所述的方法,其特征在于,所述根据比较结果对当前目标文本中的相应词元进行纠错,包括:

6.如权利要求5所述的方法,其特征在于,所述基于所述目标纠错信息,对当前目标文本中的相应词元进行纠错,包括:

7.如权利要求5所述的方法,其特征在于,所述基于所述目标编辑操作,对当前目标文本中的相应词元进行纠错,包括:

8.如权利要求1所述的方法,其特征在于,第一轮纠错处理时的当前目标文本为初始获得的所述待纠错的目标文本;后续每轮纠错处理时的当前目标文本为通过上一轮纠错处理获得的纠错后文本。

9.如权利要求1~8任一项所述的方法,其特征在于,所述检错子网络为包含两个多层感知器的多分类子网络;将所述词元的文本嵌入特征输入所述已训练的纠错模型中的检错子网络进行多分类,预测得到所述词元对应的目标编辑操作和所述目标编辑操作对应的第一预测概率:

10.如权利要求1~8任一项所述的方法,其特征在于,所述纠错子网络为包含两个多层感知器的多分类子网络;将所述词元的文本嵌入特征输入所述已训练的纠错模型中的纠错子网络进行多分类,预测得到所述词元对应的目标纠错信息和所述目标纠错信息对应的第二预测概率...

【专利技术属性】
技术研发人员:杨善明
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1