System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及自然语言处理,尤其涉及一种数据处理方法、装置、电子设备及存储介质。
技术介绍
1、随着互联网技术的发展,用户越来越多地通过互联网与其他用户进行交流。例如,用户能够通过参与网络会议,或者利用文本与其他用户交流。在交流结束后,可将要执行的待办事项数据提取出来。
2、然而,在实际应用中,待办事项数据的提取往往不尽如人意,用户可能会遇到重复描述的待办任务,从而影响到用户体验。
技术实现思路
1、有鉴于此,本公开的目的在于提出一种数据处理方法、装置、电子设备及存储介质。
2、基于上述目的,本公开第一方面提供了一种数据处理方法,包括:
3、获取待处理文本数据中的任意两条待办事项数据,至少两条待办事项数据提取自所述待处理文本数据;
4、获取所述两条待办事项数据的语义相似度值和时间戳差值,基于所述语义相似度值和所述时间戳差值,判断所述两条待办事项数据是否重复;所述时间戳差值用于表征所述两条待办事项数据在所述待处理文本数据中的时间间隔;
5、基于判断结果对所述待处理文本数据的待办事项数据进行去重处理。
6、在一些实施例中,所述基于所述语义相似度值和所述时间戳差值,判断所述两条待办事项数据是否重复,包括以下至少一者:
7、响应于所述两条待办事项数据的时间戳差值大于或等于时间戳阈值且语义相似度值大于第一相似度阈值,确定所述两条待办事项数据重复;
8、响应于所述两条待办事项数据的时间戳差值大于或等于时
9、响应于所述两条待办事项数据的时间戳差值小于时间戳阈值且语义相似度值大于第二相似度阈值,确定所述两条待办事项数据重复;
10、响应于所述两条待办事项数据的时间戳差值小于时间戳阈值且语义相似度值小于或等于第二相似度阈值,确定所述两条待办事项数据不重复;
11、其中,所述第一相似度阈值大于所述第二相似度阈值。
12、在一些实施例中,所述时间戳阈值、所述第一相似度阈值、所述第二相似度阈值通过以下方式得到:
13、获取训练数据,所述训练数据包括多个第一文本数据,所述第一文本数据已标记待办事项数据中的重复数据;
14、将所述训练数据划分为训练集和测试集;基于所述训练数据对所述多个第一文本数据中待办事项数据之间的时间戳差值、语义相似度值进行计算和搜索,获得满足预设条件的时间戳差值、第一相似度值和第二相似度值;
15、基于所述测试集对所述时间戳差值、所述第一相似度值和所述第二相似度值进行验证;
16、基于验证后的所述时间戳差值、所述第一相似度值和所述第二相似度值确定所述时间戳阈值、所述第一相似度阈值、所述第二相似度阈值。
17、在一些实施例中,所述预设条件包括:精确率和/或召回率。
18、在一些实施例中,所述基于判断结果对所述待处理文本的待办事项数据进行去重处理,包括:
19、响应于所述两条待办事项数据重复,对所述两条待办事项数据进行重复标记;
20、基于所述重复标记,合并标记为重复的所述两条待办事项数据,得到目标待办事项数据;
21、输出针对所述待处理文本的所述目标待办事项数据。
22、在一些实施例中,所述合并标记为重复的所述两条待办事项数据,得到目标待办事项数据,包括以下至少之一:
23、将长度最长的所述待办事项数据确认为所述目标待办事项数据;
24、将困惑度最小的所述待办事项数据确认为所述目标待办事项数据;
25、将信息量最大的所述待办事项数据确认为所述目标待办事项数据;
26、将各所述待办事项数据进行融合,获得所述目标待办事项数据。
27、在一些实施例中,所述方法还包括:
28、基于所述待办事项数据的时间戳按照时间顺序输出去重处理后的所述待办事项数据。
29、本公开第二方面提供了一种数据处理装置,包括:
30、获取模块,被配置为:获取待处理文本数据中的任意两条待办事项数据,至少两条待办事项数据提取自所述待处理文本数据;
31、判断模块,被配置为:获取所述两条待办事项数据的语义相似度值和时间戳差值,基于所述语义相似度值和所述时间戳差值,判断所述两条待办事项数据是否重复;;所述时间戳差值用于表征所述两条待办事项数据在所述待处理文本数据中的时间间隔;
32、去重模块,被配置为:基于判断结果对所述待处理文本数据的待办事项数据进行去重处理。
33、本公开的第三方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的数据处理方法。
34、本公开的第四方面提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行第一方面所述的数据处理方法。
35、从上面所述可以看出,本公开提供的数据处理方法、装置、电子设备及存储介质,对于从待处理文本数据中提取出的任意两条待办事项数据,获取这两条待办事项数据的语义相似度值和时间戳差值,并基于这两条待办事项数据的语义相似度值和时间戳差值判断这两条待办事项数据是否重复,从而获得待处理文本数据中任意两条待办事项数据是否重复的判断结果,之后即可基于全部的判断结果对从待处理文本数据中抽取出待办事项数据进行去重处理,从而实现了对待办事项的去重,方便了用户的使用,提高了用户体验。
本文档来自技高网...【技术保护点】
1.一种数据处理方法,包括:
2.根据权利要求1所述的方法,其中,所述基于所述语义相似度值和所述时间戳差值,判断所述两条待办事项数据是否重复,包括以下至少一者:
3.根据权利要求2所述的方法,其中,所述时间戳阈值、所述第一相似度阈值、所述第二相似度阈值通过以下方式得到:
4.根据权利要求3所述的方法,其中,所述预设条件包括:精确率和/或召回率。
5.根据权利要求1所述的方法,其中,所述基于判断结果对所述待处理文本的待办事项数据进行去重处理,包括:
6.根据权利要求5所述的方法,其中,所述合并标记为重复的所述两条待办事项数据,得到目标待办事项数据,包括以下至少之一:
7.根据权利要求1所述的方法,其中,所述方法还包括:
8.一种数据处理装置,包括:
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至7任一项所述的数据处理方法。
10.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机
...【技术特征摘要】
1.一种数据处理方法,包括:
2.根据权利要求1所述的方法,其中,所述基于所述语义相似度值和所述时间戳差值,判断所述两条待办事项数据是否重复,包括以下至少一者:
3.根据权利要求2所述的方法,其中,所述时间戳阈值、所述第一相似度阈值、所述第二相似度阈值通过以下方式得到:
4.根据权利要求3所述的方法,其中,所述预设条件包括:精确率和/或召回率。
5.根据权利要求1所述的方法,其中,所述基于判断结果对所述待处理文本的待办事项数据进行去重处理,包括:
6.根据权利要求5所述的方...
【专利技术属性】
技术研发人员:李思远,杨晶生,
申请(专利权)人:北京字跳网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。