【技术实现步骤摘要】
文本校正方法、装置和设备
本申请涉及数据处理
,特别涉及一种文本校正方法、装置和设备。
技术介绍
剧本管理是制片环节中的任务之一,制片人员需要根据剧本内容安排拍摄场次、准备服装道具、安排化妆师、规划影片制作费用、跟踪拍摄进度等。其中,对于剧本中拍摄单元起始句的识别和类别分析是剧本管理的基础任务之一,剧本中拍摄单元的起始句可以包括:拍摄的场次、时间、地点、内外景和任务等类别。现有技术中一般采用深度学习算法对文本进行分析处理,以确定文本中的拍摄单元起始句。由于采用深度学习算法需要大量的训练数据,使得训练数据必然来自多个不同的剧本,而不同剧本在撰写习惯上存在差异,使得可能存在文本中描述剧情的句子由于类似于某个作为训练数据的拍摄单元起始句而被错误的识别的情况,以及可能存在拍摄单元起始句被正确识别但是类别信息提取错误的情况,从而采用现有的文本分析方法无法对剧本中的拍摄单元起始句进行准确的识别。针对上述问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种文本校正方法、装置和设备,以解决采用现有的文本分析方法无法对剧本中的拍摄单元起始句进行准确的识别的问题。本申请实施例提供了一种文本校正方法,包括:确定目标文本包含的多个特征信息中各个特征信息的信息序列;根据所述多个特征信息中各个特征信息的信息序列的类型,对所述多个特征信息进行分类,得到标准特征信息集和待调整特征信息集;将所述标准特征信息集中特征信息对应的各个类型的信息序列转换为有限状态自动机;基于所述有 ...
【技术保护点】
1.一种文本校正方法,其特征在于,包括:/n确定目标文本包含的多个特征信息中各个特征信息的信息序列;/n根据所述多个特征信息中各个特征信息的信息序列的类型,对所述多个特征信息进行分类,得到标准特征信息集和待调整特征信息集;/n将所述标准特征信息集中特征信息对应的各个类型的信息序列转换为有限状态自动机;/n基于所述有限状态自动机,确定所述标准特征信息集中包括的各个类型的信息序列与所述待调整特征信息集的匹配度;/n将匹配度最高值对应的信息序列作为校正信息序列;/n根据所述校正信息序列对所述待调整特征信息集中各特征信息的信息序列进行校正。/n
【技术特征摘要】
1.一种文本校正方法,其特征在于,包括:
确定目标文本包含的多个特征信息中各个特征信息的信息序列;
根据所述多个特征信息中各个特征信息的信息序列的类型,对所述多个特征信息进行分类,得到标准特征信息集和待调整特征信息集;
将所述标准特征信息集中特征信息对应的各个类型的信息序列转换为有限状态自动机;
基于所述有限状态自动机,确定所述标准特征信息集中包括的各个类型的信息序列与所述待调整特征信息集的匹配度;
将匹配度最高值对应的信息序列作为校正信息序列;
根据所述校正信息序列对所述待调整特征信息集中各特征信息的信息序列进行校正。
2.根据权利要求1所述的方法,其特征在于,基于所述标准特征信息集中包括的至少一种类型的信息序列的有限状态自动机,确定所述标准特征信息集中包括的各个类型的信息序列与所述待调整特征信息集的匹配度,包括:
确定所述标准特征信息集中特征信息对应的各个类型的信息序列的转移概率矩阵;
确定所述标准特征信息集中特征信息对应的各个类型的信息序列的放射概率矩阵;
将所述标准特征信息集中特征信息对应的各个类型的信息序列的转移概率矩阵、放射概率矩阵和有限状态自动机作为第一输入模型,采用维特比算法计算所述待调整特征信息集中特征信息的信息序列与所述标准特征信息集中各个类型的信息序列匹配概率最高的信息序列和对应的第一概率最高值;
确定所述标准特征信息集中包括的各个类型的信息序列的第一权重;
将所述各个类型的信息序列的第一权重和所述第一概率最高值的乘积,作为所述第一概率最高值对应的信息序列与所述待调整特征信息集中特征信息的第一匹配度。
3.根据权利要求2所述的方法,其特征在于,在确定所述标准特征信息集中包括的各个类型的信息序列的第一权重之前,还包括:
将所述转移概率矩阵、所述放射概率矩阵和初始状态矩阵作为第二输入模型,采用维特比算法计算所述待调整特征信息集中各个特征信息的信息序列匹配概率最高的信息序列和对应的第二概率最高值;
确定在不受所述有限状态自动机约束情况下的第二权重;
将所述第二权重和所述待调整特征信息集中各个特征信息对应的第二概率最高值的乘积作为所述待调整特征信息集中各特征信息与所述第二概率最高值对应的信息序列的第二匹配度。
4.根据权利要求3所述的方法,其特征在于,将匹配度最高值对应的信息序列作为校正信息序列,包括:
将所述待调整特征信息集中目标特征信息对应的第二匹配度与所述第一匹配度进行比较,得到匹配度最高值;
将匹配度最高值对应的信息序列作为所述目标特征信息的校正信息序列;
相应的,根据所述校正信息序列对所述待调整特征信息集中各特征信息的信息序列进行校正,包括:
根据所述校正信息序列对所述目标特征信息的信息序列进行校正。
5.根据权利要求1所述的方法,其特征在于,确定所述多个特征信息中各个特征信息的信息序列,包括:
对所述多个特征信息中各个特征信息进行分词;
根据分词结果,确定所述各个特征信息包含的多个特征词和各个特征词排列的顺序;
根据所述各个特征信息包含的多个特征词和各个特征词排列的顺序,对所述各个特征信息进行标记,得到所述各个特征信息的信息序列;
根据所述各个特征信息包含的多个特征词的类别和各个特征词排列的顺序,...
【专利技术属性】
技术研发人员:齐全,裘初,高鹏东,穆凯辉,王博,
申请(专利权)人:苏州创意云网络科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。