一种文本分段方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:33905807 阅读:13 留言:0更新日期:2022-06-25 18:38
本发明专利技术实施例提出的一种文本分段方法、装置、电子设备及可读存储介质,针对待分段文本中的任一目标子句,基于预先构建的第一元祖集合和第二元组集合确定目标子句对应的词频向量,进而根据词频向量确定目标子句是否是段落结尾句,在确定目标子句为段落结尾句时,基于目标子句对待分段文本进行段落划分。本方案基于待分段文本中句子的词频向量,来确定段落结尾句,进而根据段落结尾句进行分段,相比于基于深度学习算法进行分段,本方案不需要进行模型训练,更加简单,对计算机的性能要求也相对较低,更容易实现。更容易实现。更容易实现。

【技术实现步骤摘要】
一种文本分段方法、装置、电子设备及可读存储介质


[0001]本专利技术实施例涉及文本处理
,具体涉及一种文本分段方法、装置、电子设备及可读存储介质。

技术介绍

[0002]目前很多业务场景需要对OCR文本内容进行整理或分析,OCR文本内容在形式上没有明显的段落划分标志,常常以文本块儿的形式进行存储或传输,这使得后续的处理工作(如解析、分段展示等)难以展开或难以得到预期效果。
[0003]目前对文本进行分段采用的方案通常为使用深度学习算法(LSTM),对语料进行有监督的训练,得到分段判别模型,基于分段判别模型对文本进行分段。
[0004]但是,基于深度学习算法得到的模型相对来说更像一个黑盒,预测结果具有不可解释性。并且模型的训练过程伴随着大量的参数调优,时间成本高,并对计算机的性能也有较高要求。
[0005]上述对问题的发现过程的描述,仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0006]为了解决上述技术问题或者至少部分地解决上述技术问题,本专利技术实施例提供了一种文本分段方法、装置、电子设备及可读存储介质。
[0007]有鉴于此,第一方面,本专利技术实施例提供一种文本分段方法,包括:
[0008]针对待分段文本中的任一目标子句,基于预先构建的第一元组集合和第二元组集合确定所述目标子句对应的词频向量;
[0009]根据所述目标子句对应的词频向量,确定所述目标子句是否为段落结尾句;
[0010]在确定所述目标子句为段落结尾句时,基于所述目标子句对所述待分段文本进行段落划分。
[0011]作为一种可能的实现方式,所述第一元组集合和第二元组集合采用下述方式构建:
[0012]获取语料,所述语料为具有段落标识和语句划分标志的文本;
[0013]根据段落标识对所述语料进行段落划分,得到多个段落;
[0014]根据语句划分标识对每个段落进行语句划分,得到多个子句;
[0015]将所述多个子句划分为第一句集和第二句集,所述第一句集由所述多个子句中的段落结尾句组成,所述第二句集由所述多个子句中的非段落结尾句组成;
[0016]确定所述第一句集中各词语的第一平均词频和所述第二句集中各词语的第二平均词频;
[0017]将第一句集中的各词语和各词语对应的第一平均词频作为第一元祖,组成第一元祖集合;
[0018]将第二句集中的各词语和各词语对应的第二平均词频作为第二元祖,组成第二元祖集合。
[0019]作为一种可能的实现方式,所述词频向量包括目标词频向量、第一词频向量和第二词频向量;
[0020]所述基于预设的第一元组集合和第二元组集合确定所述目标子句对应的词频向量,包括:
[0021]对所述目标子句进行词语划分,得到对应的目标词集;
[0022]根据所述目标词集中的各个词语在所述目标子句中的词频,确定目标词频向量;
[0023]从所述第一元祖集合中查找分别与所述目标词集中各词语对应的第一平均词频,并根据查找到的第一平均词频生成所述目标子句对应的第一词频向量;
[0024]从所述第二元祖集合中查找分别与所述目标词集中各词语对应的第二平均词频,并根据查找到的第二平均词频生成所述目标子句对应的第二词频向量。
[0025]作为一种可能的实现方式,根据所述目标子句对应的词频向量,确定所述目标子句是否为段落结尾句,包括:
[0026]确定所述目标词频向量与所述第一词频向量的第一相似度;
[0027]确定所述目标词频向量与所述第二词频向量的第二相似度;
[0028]若所述第一相似度大于所述第二相似度,则确定所述目标子句是段落结尾句;
[0029]若所述第一相似度小于所述第二相似度,则确定所述目标子句不是段落结尾句。
[0030]作为一种可能的实现方式,所述第一句集中的词语的第一平均词频采用下述方式确定:
[0031]确定词语在所述第一句集中的第一词频;
[0032]确定所述第一词频与所述第一句集中包含的子句数量的第一比值;
[0033]将所述第一比值作为该词语对应的第一平均词频。
[0034]作为一种可能的实现方式,所述第二句集中的词语的第二平均词频采用下述方式确定:
[0035]确定词语在所述第二句集中的第二词频;
[0036]确定所述第二词频与所述第二句集中包含的子句数量的第二比值;
[0037]将所述第二比值作为该词语对应的第二平均词频。
[0038]作为一种可能的实现方式,对所述目标子句进行词语划分,得到对应的目标词集,包括:
[0039]对所述目标子句进行词语划分,得到多个词语;
[0040]去除所述多个词语中的预设词语,得到多个目标词语;
[0041]将所述目标词语组成目标词集。
[0042]第二方面,本专利技术实施例还提供了一种文本分段装置,包括:
[0043]词频向量确定模块,用于针对待分段文本中的任一目标子句,基于预先构建的第一元组集合和第二元组集合确定所述目标子句对应的词频向量;
[0044]结尾句确定模块,用于根据所述目标子句对应的词频向量,确定所述目标子句是否为段落结尾句;
[0045]段落划分模块,用于在确定所述目标子句为段落结尾句时,基于所述目标子句对
所述待分段文本进行段落划分。
[0046]第三方面,本专利技术实施例还提供了一种电子设备,包括至少一个处理器以及与处理器连接的至少一个存储器、总线;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行第一方面所述的文本分段方法的步骤。
[0047]第四方面,本专利技术实施例还提供了一种可读存储介质,所述可读存储介质存储计算机指令,所述计算机指令使计算机执行第一方面所述的文本分段方法的步骤。
[0048]相比现有技术,本专利技术实施例提出的一种文本分段方法,针对待分段文本中的任一目标子句,基于预先构建的第一元祖集合和第二元组集合确定目标子句对应的词频向量,进而根据词频向量确定目标子句是否是段落结尾句,进而在确定目标子句为段落结尾句时,基于目标子句对待分段文本进行段落划分。本方案基于待分段文本中句子的词频向量,来确定段落结尾句,进而根据段落结尾句进行分段,相比于基于深度学习算法进行分段,本方案不需要进行模型训练,更加简单,对计算机的性能要求也相对较低,更容易实现。
附图说明
[0049]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0050]图1为本专利技术实施例提供的一种文本分段方法的流程图;
[0051]图2为本专利技术实施例提供的另一种文本分段方法的流程图;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分段方法,其特征在于,包括:针对待分段文本中的任一目标子句,基于预先构建的第一元组集合和第二元组集合确定所述目标子句对应的词频向量;根据所述目标子句对应的词频向量,确定所述目标子句是否为段落结尾句;在确定所述目标子句为段落结尾句时,基于所述目标子句对所述待分段文本进行段落划分。2.根据权利要求1所述的方法,其特征在于,所述第一元组集合和第二元组集合采用下述方式构建:获取语料,所述语料为具有段落标识和语句划分标志的文本;根据段落标识对所述语料进行段落划分,得到多个段落;根据语句划分标识对每个段落进行语句划分,得到多个子句;将所述多个子句划分为第一句集和第二句集,所述第一句集由所述多个子句中的段落结尾句组成,所述第二句集由所述多个子句中的非段落结尾句组成;确定所述第一句集中各词语的第一平均词频和所述第二句集中各词语的第二平均词频;将第一句集中的各词语和各词语对应的第一平均词频作为第一元祖,组成第一元祖集合;将第二句集中的各词语和各词语对应的第二平均词频作为第二元祖,组成第二元祖集合。3.根据权利要求2所述的方法,其特征在于,所述词频向量包括目标词频向量、第一词频向量和第二词频向量;所述基于预设的第一元组集合和第二元组集合确定所述目标子句对应的词频向量,包括:对所述目标子句进行词语划分,得到对应的目标词集;根据所述目标词集中的各个词语在所述目标子句中的词频,确定目标词频向量;从所述第一元祖集合中查找分别与所述目标词集中各词语对应的第一平均词频,并根据查找到的第一平均词频生成所述目标子句对应的第一词频向量;从所述第二元祖集合中查找分别与所述目标词集中各词语对应的第二平均词频,并根据查找到的第二平均词频生成所述目标子句对应的第二词频向量。4.根据权利要求3所述的方法,其特征在于,根据所述目标子句对应的词频向量,确定所述目标子句是否为段落结尾句,包括:确定所述目标词频向量与所述第一词频向量的第一相似度;确定所述目标词...

【专利技术属性】
技术研发人员:付强
申请(专利权)人:苏州国双软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1