一种自适应多层次文档切割方法技术

技术编号：43768797 阅读：18 留言：0更新日期：2024-12-24 16:09

本发明专利技术涉及文档切割技术领域，公开了一种自适应多层次文档切割方法，对原始文档进行解析，基于解析结果确定待切割文档；获取待切割文档的文档信息，进行第一次切割，得到多个切割块；确定每个切割块对应的综合指标值，基于数值大小排序结果对符合条件的切割块进行融合，得到多个融合块；采集每个融合块中切割块的数量，计算分层引导因子；根据分层引导因子对融合块进行分层，得到多个层级区间，判断是否需要对层级区间进行调整，若是，基于融合块设定调整系数，对层级区间进行调整，将调整后的层级区间作为目标切割文档，可以实现对文档的智能切割，提高了文档切割效率，还能够保证切割的准确性和适应性，避免上下文信息不完整的现象。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文档切割，具体而言，涉及一种自适应多层次文档切割方法。

技术介绍

1、随着信息技术的飞速发展，大量的文本数据被电子化，形成了庞大的数据集。这些数据集中的文档往往具有复杂的结构和层次，包含了丰富的信息。为了有效地利用这些信息，需要对文档进行有效的切割和组织。

2、传统的文档切割方法往往依赖于人工设定的规则或者简单的算法，这些方法在处理复杂文档时存在局限性，无法适应文档内容的多样性和结构的复杂性。且传统的文档切割方法对于过长文本时，关键的上下文信息可能在转换过程中丢失，没有完整的上下文信息。

技术实现思路

1、本专利技术实施例提供一种自适应多层次文档切割方法，可以实现对文档的智能切割，不仅提高了文档切割效率，还能够保证切割的准确性和适应性。

2、为了实现上述目的，本专利技术提供了一种自适应多层次文档切割方法，包括：

3、接收原始文档，对所述原始文档进行解析，判断所述原始文档是否符合切割条件，若是，则确定所述原始文档为待切割文档；

4、获取所述待切割文档的文档信息，并根据所述文档信息进行第一次切割，得到多个切割块；

5、确定每个切割块对应的综合指标值，并对所有的综合指标值进行数值大小排序，基于排序结果对符合条件的切割块进行融合，得到多个融合块；

6、采集每个融合块中切割块的数量，并根据切割块的数量计算对应融合块的分层引导因子；

7、根据所有的分层引导因子对融合块进行分层，得到多个层级区间，并

8、当判断需要对所述层级区间进行调整时，基于融合块设定调整系数，并根据所述调整系数对所述层级区间进行调整，将调整后的层级区间作为目标切割文档。

9、进一步地，在接收原始文档，对所述原始文档进行解析，判断所述原始文档是否符合切割条件，若是，则确定所述原始文档为待切割文档时，包括：

10、基于所述原始文档携带的标识码判断所述原始文档是否为已访问过的文档，其中，访问过的文档会存储于文档数据库中，且所述文档数据中的文档为已通过安全性检测的文档；

11、当所述原始文档是已经访问过的文档时，则判断所述原始文档是否可信；

12、若所述原始文档可信，则判断所述原始文档符合切割条件；

13、当所述原始文档为非已经访问过的文件，则执行查询读取操作，并进行安全性检测。

14、进一步地，在获取所述待切割文档的文档信息，并根据所述文档信息进行第一次切割，得到多个切割块时，包括：

15、基于预设的切割点对所述待切割文档进行分析，确定多个切割单元，其中，每一个切割单元为一个完整的语句；

16、对每一个切割单元进行解析，确定切割单元对应的文档内容和文档架构，并基于预先训练的文档内容指标值模型对所述文档内容进行分析，输出对应的文档内容指标值，基于预先训练的文档架构指标值模型对所述文档架构进行分析，输出对应的文档架构指标值；

17、基于所述文档内容指标值和所述文档架构指标值计算切割单元的综合指标值；

18、p＝β1×(1+e1)e2+β2×(1+e2)e1；

19、其中，p为切割单元的综合指标值，β1为第一计算系数，e1为文档内容指标值，β2为第二计算系数，e2为文档架构指标值；

20、基于切割顺序将所有的切割单元进行两两绑定，若存在未被绑定的切割单元，则将未被绑定的切割单元作为一个切割块；

21、计算每两个绑定的切割单元的综合指标差值，获取预先设定的预设综合指标差值；

22、将所有小于或等于所述预设综合指标差值的综合指标差值进行提取，并分别作为一个切割块；

23、将所有大于所述预设综合指标差值的综合指标差值进行解绑，得到综合指标差值数列；

24、将所述综合指标差值数列对应的所有切割单元作为切割块。

25、进一步地，在基于预先训练的文档内容指标值模型对所述文档内容进行分析，输出对应的文档内容指标值，基于预先训练的文档架构指标值模型对所述文档架构进行分析，输出对应的文档架构指标值时，包括：

26、对所述文档内容进行分词处理，得到所述文档内容的拆分单词；

27、基于预设词性对每个拆分单词进行第一标注，根据第一标注对所述文档内容进行词义匹配，得到所述文档内容的词义分词集合；

28、基于所述文档内容指标值模型对所述文档内容集合进行处理，得到所述文档内容指标值；

29、对所述文档架构进行拆分处理，得到所述文档架构的拆分布局；

30、基于预设布局对每个拆分布局进行第二标注，根据第二标注对所述文档结构进行布局匹配，得到所述文档架构的拆分布局集合；

31、基于所述文档架构指标值模型对所述拆分布局集合进行处理，得到所述文档架构指标值。

32、进一步地，在确定每个切割块对应的综合指标值，并对所有的综合指标值进行数值大小排序，基于排序结果对符合条件的切割块进行融合，得到多个融合块时，包括：

33、基于排序结果确定综合指标值集合，将所述综合指标值集合中第一个综合指标值和第二个综合指标值对应的切割块进行融合，得到第一融合块，并将所述综合指标值集合中第三个综合指标值对应的切割块作为待更新切割块；

34、获取待更新切割块与第二个综合指标值对应的切割块之间的第二综合指标差值，获取预先设定的第二预设综合指标差值；

35、判断所述第二综合指标差值是否小于或者等于所述第二预设综合指标差值，若是，将待更新切割块添加到第一融合块内，对第一融合块进行更新，若否，则将待更新切割块作为第二融合块；

36、将所述综合指标值集合中第四个综合指标值对应的切割块作为下一待更新切割块；

37、获取下一待更新切割块与第二融合块或第一融合块中第三个综合指标值对应的切割块之间的第三综合指标差值，判断所述第三综合指标差值是否小于或者等于所述第二预设综合指标差值，若是，将下一待更新切割块添加到第二融合块或第一融合块中，若否，则将下一待更新切割块作为第二融合块或第三融合块；

38、以此进行更新迭代，将综合指标值集合划分为多个融合块。

39、进一步地，在采集每个融合块中切割块的数量，并根据切割块的数量计算对应融合块的分层引导因子时，包括：

40、对融合块配置第一权重，并对每个切割块配置第二权重；

41、根据下式计算对应融合块的分层引导因子：

42、

43、其中，g为分层引导因子，d为第一权重，n为融合块中切割块的数量，fi为第i个切割块的综合指标值，hi为第i个切割块的第二权重。

44、进一步地，在根据所有的分层引导因子对融合块进行分层，得到多个层级区间，并基于分层结果判断是否需要对层级区间进行调整时，本文档来自技高网...

【技术保护点】

1.一种自适应多层次文档切割方法，其特征在于，包括：

2.根据权利要求1所述的自适应多层次文档切割方法，其特征在于，在接收原始文档，对所述原始文档进行解析，判断所述原始文档是否符合切割条件，若是，则确定所述原始文档为待切割文档时，包括：

3.根据权利要求1所述的自适应多层次文档切割方法，其特征在于，在获取所述待切割文档的文档信息，并根据所述文档信息进行第一次切割，得到多个切割块时，包括：

4.根据权利要求3所述的自适应多层次文档切割方法，其特征在于，在基于预先训练的文档内容指标值模型对所述文档内容进行分析，输出对应的文档内容指标值，基于预先训练的文档架构指标值模型对所述文档架构进行分析，输出对应的文档架构指标值时，包括：

5.根据权利要求1所述的自适应多层次文档切割方法，其特征在于，在确定每个切割块对应的综合指标值，并对所有的综合指标值进行数值大小排序，基于排序结果对符合条件的切割块进行融合，得到多个融合块时，包括：

6.根据权利要求5所述的自适应多层次文档切割方法，其特征在于，在采集每个融合块中切割块的数量，并根据切割

7.根据权利要求6所述的自适应多层次文档切割方法，其特征在于，在根据所有的分层引导因子对融合块进行分层，得到多个层级区间，并基于分层结果判断是否需要对层级区间进行调整时，包括：

8.根据权利要求7所述的自适应多层次文档切割方法，其特征在于，当判断需要对所述层级区间进行调整时，基于融合块设定调整系数，并根据所述调整系数对所述层级区间进行调整时，包括：

9.根据权利要求8所述的自适应多层次文档切割方法，其特征在于，在根据所述第一子分层引导因子和值集合和所述第二子分层引导因子和值计算调整系数时，包括：

...

【技术特征摘要】

1.一种自适应多层次文档切割方法，其特征在于，包括：

5.根据权利要求1所述的自适应多层次文档切割方法，其特征在于，在确定每个切割块对应的综合指标值，并对所有的综合指...

【专利技术属性】
技术研发人员：邵为涛，张娜，张利东，张志勇，张悦旸，李冬冬，胡敏，
申请(专利权)人：北京中科睿途科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人