文本校正方法、装置和设备制造方法及图纸

技术编号:23099657 阅读:61 留言:0更新日期:2020-01-14 20:42
本申请提供了一种文本校正方法、装置和设备,其中,该方法包括:确定目标文本包含的多个特征信息中各个特征信息的信息序列;根据各个特征信息的信息序列的类型对多个特征信息进行分类,得到标准特征信息集和待调整特征信息集;将所述标准特征信息集对应的各个类型的信息序列转换为有限状态自动机;基于有限状态自动机,确定所述各个类型的信息序列与待调整特征信息集的匹配度;将匹配度最高值对应的信息序列作为校正信息序列对待调整特征信息集中各特征信息的信息序列进行校正。在本申请实施例中,可以根据目标文本中各个特征信息的标准撰写方式,对待调整特征信息集中的各特征信息进行二次校正,从而提高对目标文本的特征信息识别的准确度。

【技术实现步骤摘要】
文本校正方法、装置和设备
本申请涉及数据处理
,特别涉及一种文本校正方法、装置和设备。
技术介绍
剧本管理是制片环节中的任务之一,制片人员需要根据剧本内容安排拍摄场次、准备服装道具、安排化妆师、规划影片制作费用、跟踪拍摄进度等。其中,对于剧本中拍摄单元起始句的识别和类别分析是剧本管理的基础任务之一,剧本中拍摄单元的起始句可以包括:拍摄的场次、时间、地点、内外景和任务等类别。现有技术中一般采用深度学习算法对文本进行分析处理,以确定文本中的拍摄单元起始句。由于采用深度学习算法需要大量的训练数据,使得训练数据必然来自多个不同的剧本,而不同剧本在撰写习惯上存在差异,使得可能存在文本中描述剧情的句子由于类似于某个作为训练数据的拍摄单元起始句而被错误的识别的情况,以及可能存在拍摄单元起始句被正确识别但是类别信息提取错误的情况,从而采用现有的文本分析方法无法对剧本中的拍摄单元起始句进行准确的识别。针对上述问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种文本校正方法、装置和设备,以解决采用现有的文本分析方法无法对剧本中的拍摄单元起始句进行准确的识别的问题。本申请实施例提供了一种文本校正方法,包括:确定目标文本包含的多个特征信息中各个特征信息的信息序列;根据所述多个特征信息中各个特征信息的信息序列的类型,对所述多个特征信息进行分类,得到标准特征信息集和待调整特征信息集;将所述标准特征信息集中特征信息对应的各个类型的信息序列转换为有限状态自动机;基于所述有限状态自动机,确定所述标准特征信息集中包括的各个类型的信息序列与所述待调整特征信息集的匹配度;将匹配度最高值对应的信息序列作为校正信息序列;根据所述校正信息序列对所述待调整特征信息集中各特征信息的信息序列进行校正。在一个实施例中,基于所述标准特征信息集中包括的至少一种类型的信息序列的有限状态自动机,确定所述标准特征信息集中包括的各个类型的信息序列与所述待调整特征信息集的匹配度,包括:确定所述标准特征信息集中特征信息对应的各个类型的信息序列的转移概率矩阵;确定所述标准特征信息集中特征信息对应的各个类型的信息序列的放射概率矩阵;将所述标准特征信息集中特征信息对应的各个类型的信息序列的转移概率矩阵、放射概率矩阵和有限状态自动机作为第一输入模型,采用维特比算法计算所述待调整特征信息集中特征信息的信息序列与所述标准特征信息集中各个类型的信息序列匹配概率最高的信息序列和对应的第一概率最高值;确定所述标准特征信息集中包括的各个类型的信息序列的第一权重;将所述各个类型的信息序列的第一权重和所述第一概率最高值的乘积,作为所述第一概率最高值对应的信息序列与所述待调整特征信息集中特征信息的第一匹配度。在一个实施例中,在确定所述标准特征信息集中包括的各个类型的信息序列的第一权重之前,还包括:将所述转移概率矩阵、所述放射概率矩阵和初始状态矩阵作为第二输入模型,采用维特比算法计算所述待调整特征信息集中各个特征信息的信息序列匹配概率最高的信息序列和对应的第二概率最高值;确定在不受所述有限状态自动机约束情况下的第二权重;将所述第二权重和所述待调整特征信息集中各个特征信息对应的第二概率最高值的乘积作为所述待调整特征信息集中各特征信息与所述第二概率最高值对应的信息序列的第二匹配度。在一个实施例中,将匹配度最高值对应的信息序列作为校正信息序列,包括:将所述待调整特征信息集中目标特征信息对应的第二匹配度与所述第一匹配度进行比较,得到匹配度最高值;将匹配度最高值对应的信息序列作为所述目标特征信息的校正信息序列;相应的,根据所述校正信息序列对所述待调整特征信息集中各特征信息的信息序列进行校正,包括:根据所述校正信息序列对所述目标特征信息的信息序列进行校正。在一个实施例中,确定所述多个特征信息中各个特征信息的信息序列,包括:对所述多个特征信息中各个特征信息进行分词;根据分词结果,确定所述各个特征信息包含的多个特征词和各个特征词排列的顺序;根据所述各个特征信息包含的多个特征词和各个特征词排列的顺序,对所述各个特征信息进行标记,得到所述各个特征信息的信息序列;根据所述各个特征信息包含的多个特征词的类别和各个特征词排列的顺序,确定所述各个特征信息的信息序列的类型。在一个实施例中,根据所述多个特征信息中各个特征信息的信息序列的类型,对所述多个特征信息进行分类,得到标准特征信息集和待调整特征信息集,包括:确定各个信息序列类型对应的特征信息的数量;按照所述各个信息序列类型对应的特征信息的数量的大小对所述各个信息序列类型进行排序;确定排序第一的信息序列类型对应的特征信息的数量与特征信息总数量的比值是否大于等于预设阈值;在确定排序第一的信息序列类型对应的特征信息的数量与特征信息总数量的比值大于等于所述预设阈值的情况下,将所述排序第一的信息序列类型对应的特征信息作为所述标准特征信息集;将所述多个特征信息中除所述排序第一的信息序列类型对应的特征信息之外的特征信息作为所述待调整特征信息集。在一个实施例中,在确定排序第一的信息序列类型对应的特征信息的数量与特征信息总数量的比值是否大于等于预设阈值之后,还包括:在确定排序第一的信息序列类型对应的特征信息的数量与特征信息总数量的比值小于所述预设阈值的情况下,确定排序第一的信息序列类型对应的特征信息的数量和排序第二的信息序列类型对应的特征信息的数量之和与特征信息总数量的比值是否大于等于所述预设阈值;在确定排序第一的信息序列类型对应的特征信息的数量和排序第二的信息序列类型对应的特征信息的数量之和与特征信息总数量的比值大于等于所述预设阈值的情况下,将所述排序第一的信息序列类型对应的特征信息和排序第二的信息序列类型对应的特征信息作为所述标准特征信息集;将所述多个特征信息中除所述排序第一的信息序列类型对应的特征信息和排序第二的信息序列类型对应的特征信息之外的特征信息作为所述待调整特征信息集。在一个实施例中,在确定目标文本包含的多个特征信息中各个特征信息的信息序列之前,还包括:采用预设深度学习模型确定所述目标文中包含的多个特征信息。在一个实施例中,采用条件随机场模型确定所述标准特征信息集中包括的各个类型的信息序列的转移概率矩阵。本申请实施例还提供了一种文本校正装置,包括:第一确定模块,用于确定目标文本包含的多个特征信息中各个特征信息的信息序列;分类模块,用于根据所述多个特征信息中各个特征信息的信息序列的类型,对所述多个特征信息进行分类,得到标准特征信息集和待调整特征信息集;转换模块,用于将所述标准特征信息集中特征信息对应的各个类型的信息序列转换为有限状态自动机;第二确定模块,用于基于所述有限状态自动机,确定所述标准特征信息集中包括的各个类型的信息序列与所述待调整特征信息集的匹配度;处理模块,用于将匹配度最高值对应的信息序列作为校正信息序列;校正模块,用于根据所述校正信息序列对所述待调整特征信息集中各特征信息的信息序列进行校正。本申请实施例还提供了一种文本校正设备,包括处理器以及用于存储处理器可本文档来自技高网...

【技术保护点】
1.一种文本校正方法,其特征在于,包括:/n确定目标文本包含的多个特征信息中各个特征信息的信息序列;/n根据所述多个特征信息中各个特征信息的信息序列的类型,对所述多个特征信息进行分类,得到标准特征信息集和待调整特征信息集;/n将所述标准特征信息集中特征信息对应的各个类型的信息序列转换为有限状态自动机;/n基于所述有限状态自动机,确定所述标准特征信息集中包括的各个类型的信息序列与所述待调整特征信息集的匹配度;/n将匹配度最高值对应的信息序列作为校正信息序列;/n根据所述校正信息序列对所述待调整特征信息集中各特征信息的信息序列进行校正。/n

【技术特征摘要】
1.一种文本校正方法,其特征在于,包括:
确定目标文本包含的多个特征信息中各个特征信息的信息序列;
根据所述多个特征信息中各个特征信息的信息序列的类型,对所述多个特征信息进行分类,得到标准特征信息集和待调整特征信息集;
将所述标准特征信息集中特征信息对应的各个类型的信息序列转换为有限状态自动机;
基于所述有限状态自动机,确定所述标准特征信息集中包括的各个类型的信息序列与所述待调整特征信息集的匹配度;
将匹配度最高值对应的信息序列作为校正信息序列;
根据所述校正信息序列对所述待调整特征信息集中各特征信息的信息序列进行校正。


2.根据权利要求1所述的方法,其特征在于,基于所述标准特征信息集中包括的至少一种类型的信息序列的有限状态自动机,确定所述标准特征信息集中包括的各个类型的信息序列与所述待调整特征信息集的匹配度,包括:
确定所述标准特征信息集中特征信息对应的各个类型的信息序列的转移概率矩阵;
确定所述标准特征信息集中特征信息对应的各个类型的信息序列的放射概率矩阵;
将所述标准特征信息集中特征信息对应的各个类型的信息序列的转移概率矩阵、放射概率矩阵和有限状态自动机作为第一输入模型,采用维特比算法计算所述待调整特征信息集中特征信息的信息序列与所述标准特征信息集中各个类型的信息序列匹配概率最高的信息序列和对应的第一概率最高值;
确定所述标准特征信息集中包括的各个类型的信息序列的第一权重;
将所述各个类型的信息序列的第一权重和所述第一概率最高值的乘积,作为所述第一概率最高值对应的信息序列与所述待调整特征信息集中特征信息的第一匹配度。


3.根据权利要求2所述的方法,其特征在于,在确定所述标准特征信息集中包括的各个类型的信息序列的第一权重之前,还包括:
将所述转移概率矩阵、所述放射概率矩阵和初始状态矩阵作为第二输入模型,采用维特比算法计算所述待调整特征信息集中各个特征信息的信息序列匹配概率最高的信息序列和对应的第二概率最高值;
确定在不受所述有限状态自动机约束情况下的第二权重;
将所述第二权重和所述待调整特征信息集中各个特征信息对应的第二概率最高值的乘积作为所述待调整特征信息集中各特征信息与所述第二概率最高值对应的信息序列的第二匹配度。


4.根据权利要求3所述的方法,其特征在于,将匹配度最高值对应的信息序列作为校正信息序列,包括:
将所述待调整特征信息集中目标特征信息对应的第二匹配度与所述第一匹配度进行比较,得到匹配度最高值;
将匹配度最高值对应的信息序列作为所述目标特征信息的校正信息序列;
相应的,根据所述校正信息序列对所述待调整特征信息集中各特征信息的信息序列进行校正,包括:
根据所述校正信息序列对所述目标特征信息的信息序列进行校正。


5.根据权利要求1所述的方法,其特征在于,确定所述多个特征信息中各个特征信息的信息序列,包括:
对所述多个特征信息中各个特征信息进行分词;
根据分词结果,确定所述各个特征信息包含的多个特征词和各个特征词排列的顺序;
根据所述各个特征信息包含的多个特征词和各个特征词排列的顺序,对所述各个特征信息进行标记,得到所述各个特征信息的信息序列;
根据所述各个特征信息包含的多个特征词的类别和各个特征词排列的顺序,...

【专利技术属性】
技术研发人员:齐全裘初高鹏东穆凯辉王博
申请(专利权)人:苏州创意云网络科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利