System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机数据处理,尤其涉及一种基于感知神经网络的去重方法、装置、设备及存储介质。
技术介绍
1、在涉及文本检索的场景中,文本库的建设和维护是关键环节。然而,文本库在录入新文本时常常会遇到数据冗余问题,即重复或高度相似的文本被多次录入。这不仅占用了额外的存储空间,而且在用户检索时会导致体验下降,因为搜索引擎会返回大量重复或类似的结果。现有的去重手段大多基于逐个对比,随着数据量的增加,这种方法的效率变得非常低,且去重的准确度也不高。
技术实现思路
1、针对现有技术的不足,本申请提供了一种基于感知神经网络的去重方法、装置、设备及存储介质,旨在解决现有技术中录入新文本时去重效率低和去重准确度不高的技术问题。具体地:
2、第一方面,本申请实施例提供了一种基于感知神经网络的去重方法,该方法包括:将待入库文本输入整体感知层确定待入库文本的文本宏观特征,并基于文本宏观特征和文本库确定第一比对库;将待入库文本输入关键词匹配层确定关键词匹配结果,并基于关键词匹配结果和第一比对库确定第二比对库;基于待入库文本对第二比对库进行全文检索确定第三比对库;基于预设相似度算法确定第三比对库中是否存在与待入库文本匹配的文本,并在不存在时将待入库文本录入文本库。
3、第二方面,本申请实施例提供了一种基于感知神经网络的去重装置,该装置包括:整体感知模块,用于将待入库文本输入整体感知层确定待入库文本的文本宏观特征,并基于文本宏观特征和文本库确定第一比对库;关键词匹配模块,用于将待入库文本输
4、第三方面,本申请实施例提供了一种电子设备,该电子设备包括:一个或多个处理器、存储器以及一个或多个应用程序。其中,一个或多个应用程序被存储在存储器中并被配置由一个或多个处理器执行,一个或多个应用程序被配置用于执行如第一方面的方法。
5、第四方面,本申请实施例提供了一种计算机可读取存储介质,该计算机可读取存储介质中存储有程序代码,程序代码可被处理器调用执行如第一方面的方法。
6、在本申请提供的技术方案中,通过将待入库文本输入整体感知层确定待入库文本的文本宏观特征,并基于文本宏观特征和文本库确定第一比对库;将待入库文本输入关键词匹配层确定关键词匹配结果,并基于关键词匹配结果和第一比对库确定第二比对库;基于待入库文本对第二比对库进行全文检索确定第三比对库;基于预设相似度算法确定第三比对库中是否存在与待入库文本匹配的文本,并在不存在时将待入库文本录入文本库。由此,通过感知神经网络的分层处理模拟人类感知机制,将待入库文本与文本库逐层进行筛选比对以确定是否将待入库文本录入文本库,有效提高了去重的效率和准确度。
本文档来自技高网...【技术保护点】
1.一种基于感知神经网络的去重方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将待入库文本输入整体感知层确定所述待入库文本的文本宏观特征,并基于所述文本宏观特征和文本库确定第一比对库,包括:
3.根据权利要求2所述的方法,其特征在于,所述将所述待入库文本输入关键词匹配层确定关键词匹配结果,并基于所述关键词匹配结果和所述第一比对库确定第二比对库之后,还包括:
4.根据权利要求3所述的方法,其特征在于,所述将所述待入库文本输入细节感知层确定所述待入库文本的文本微观特征,包括:
5.根据权利要求4所述的方法,其特征在于,所述对所述细节感知信息进行微观特征提取,确定所述待入库文本的文本微观特征,包括:
6.根据权利要求1所述的方法,其特征在于,所述将所述待入库文本输入关键词匹配层,并基于所述第一比对库确定关键词匹配结果和第二比对库,包括:
7.根据权利要求1所述的方法,其特征在于,所述基于预设相似度算法确定所述第三比对库中是否存在与所述待入库文本匹配的文本,包括:
8.一种
9.一种电子设备,其特征在于,包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序被配置用于执行如权利要求1-7任一项所述的方法。
10.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-7任一项所述的方法。
...【技术特征摘要】
1.一种基于感知神经网络的去重方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将待入库文本输入整体感知层确定所述待入库文本的文本宏观特征,并基于所述文本宏观特征和文本库确定第一比对库,包括:
3.根据权利要求2所述的方法,其特征在于,所述将所述待入库文本输入关键词匹配层确定关键词匹配结果,并基于所述关键词匹配结果和所述第一比对库确定第二比对库之后,还包括:
4.根据权利要求3所述的方法,其特征在于,所述将所述待入库文本输入细节感知层确定所述待入库文本的文本微观特征,包括:
5.根据权利要求4所述的方法,其特征在于,所述对所述细节感知信息进行微观特征提取,确定所述待入库文本的文本微观特征,包括:
6.根据权利要求1所述的方法,其特征在...
【专利技术属性】
技术研发人员:曾李,彭海波,廖丽娜,王端敏,
申请(专利权)人:深圳市菁优智慧教育股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。