System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理,具体为一种基于增强语义研判的交通案例摘要抽取方法。
技术介绍
1、在交通治理案例的过程中,需要对关键信息尽心提取行程摘要。但是,收集案例的信息量之大使得很难快速获取关键信息,通过人工抽取显然工作量过大很难实行。
2、近年来,随着深度学习的发展,各种神经网络模型已被广泛运用到自动文本摘要任务中。提取式摘要技术已经取得了显著讲步。transformer模型因其注意力机制和并行化处理能力,极大地提升了自然语言处理任务的性能。transformer模型通过自回归生成方式,不仅可以生成简洁的摘要,还能保持原文的信息完整性,在提取式摘要的
被广泛应用。然而,在实际工作中,由于采集上来的交通案例没有固定的模版,都是案例撰写人员基于自己所在团队的习惯语言进行撰写,其中有大量的简化词和缩略表述。所以,基于现有技术中的摘要抽取方法对交通治理案例进行摘要,最终得到的摘要信息准确度不高。
技术实现思路
1、为了解决现有技术中的摘要抽取方法不适用于交通治理例中的摘要抽取需求的问题,本专利技术提供一种基于增强语义研判的交通案例摘要抽取方法,其可以更准确地抽取关键词,生成更精准的摘要。
2、本专利技术的技术方案是这样的:一种基于增强语义研判的交通案例摘要抽取方法,其特征在于,其包括以下步骤:
3、s1:构建语义增强用字符向量集合t;
4、针对待抽取的内容,构建所述语义增强用字符向量集合t;所述语义增强字符相邻集合t中包括了待抽取内
5、集合t包含k个子集合,共有d个字符向量,集合t表示为ct:
6、;
7、与ct每个子集合相对应的中心向量集合μ,表示为:
8、;
9、s2:获取待抽取文章,读取每一个句子,记作:待分析句子;将所述待分析句子中的待分析字符映射为字符向量;
10、假设,待抽取文章对应n个待分析字符,则待抽取文章对应的字符向量集合s为:
11、;
12、s3:将每一个待分析字符向量si与中心向量集合μ中的向量分别做相似度计算,得到与待分析字符向量si相似度最高的前两个类别,其在集合t中对应的子集分别记作:集合cp和集合cq;
13、cp={t1,t2,...,tl};
14、cq={t1,t2,...,td};
15、其中,l为相似度最高的类别在集合t中对应的子集中包括的字符向量个数,l≤d;
16、d为相似度次高的类别在集合t中对应的子集中包括的字符向量个数,d≤d;
17、s4:将每一个待分析字符向量si分别与其对应的类别cp中的每一个字符向量进行相似度计算,按照预设的比例,获得与待分析字符向量si语义相似度较高的n1个字符,字符集合记作cp’;
18、将每一个字符向量si分别与其对应的类别cq中的每一个字符向量进行相似度计算,按照预设的比例,获得与待分析字符向量si语义相似度较高的n2个字符,字符集合记作cq’;
19、将cp’和cq’中的字符向量合并后,再按照预设比例得到与si语义相似度高的前m个字符向量集合,记作:最相似集合ci:
20、,
21、其中,maxm表示从大到小倒序排列的前m个值;
22、s5:基于transformaer模型构建摘要抽取模型;
23、构建训练数据集和验证数据集,通过所述训练数据集对所述摘要抽取模型进行训练,得到训练好的所述摘要抽取模型;
24、s6:将待抽取文章,送入训练好的所述摘要抽取模型,基于transformer上下文编码从所述待抽取文章中获得待分析字符向量si对应的权重和隐状态,将si的隐状态记作:hi;
25、其中,hi的维度大小与字符向量cij相同,cij∈ci;j取值小于等于m;
26、根据待分析字符向量si对应的权重,得到本次抽取的待判断摘要;
27、s7:为每个待分析字符向量si的近似字符cij∈ci分配不同的权重pij;
28、;
29、其中,pij表示ci中第j个字符的权重;
30、s8:将pij与cij进行加权求和得到句子中增强每个字符向量si的语义信息表示ai;
31、基于所述待判断摘要,通过ai表示摘要内容,得到语义增强后摘要;
32、所述语义增强后摘要对应摘要编码集合a;
33、a={a1,a2,....,an'},其中,n'为待判断摘要中包括的字符个数;
34、;
35、s9:将所述语义增强后摘要与待抽取文章做相似度计算,得到待判断相似度;
36、将待判断相似度与预设的相似度阈值进行比较,当所述待判断阈值大于所述相似度阈值时,则得到最终输出的摘要;
37、否则,循环执行步骤s5~s9。
38、其进一步特征为:
39、所述待判断摘要和所述语义增强后摘要的生产方法为:
40、将字符向量输入到crf模型中,得到最终摘要序列;
41、步骤s4中,所述预设比例设置为1/2;
42、则,n1=l/2,n2=d/2,m=(l+d)/4;
43、所述摘要抽取模型训练时,使用的优化目标函数为:
44、;
45、其中,xi为预测样本,xj为真实标签样本,xl为数据集中的样本,l为数据集的总样本数,p为属性权重,ωi为与xi属于同类别的样本下标集合;
46、对所述优化目标函数求解最小值时,采用随机梯度下降法sgd求解;
47、步骤s1中,所述语义增强用字符向量集合t的构建方法,包括以下步骤:
48、a1:通过bert预训练模型得到的句子w中每个字符对应的字符向量eb;
49、;
50、其中n表示句子的长度,wi是表示该句子中第i个字符,输入的句子表示为:
51、w={w1,w2,....,wn};
52、a2:通过匹配基于skip-gram模型的word2vec工具训练得到的已有字符向量集合,将句子中的每个字符转换为字符向量ew,对句子中的字符进行向量表示;
53、;
54、a3:将bert预训练模型得到的字符向量eb,与通过word2vec工具得到的字符向量ew进行拼接,并将拼接结果x作为最终的字符向量表示,构成集合t;
55、;
56、a4:对集合t中的字符向量进行聚类;
57、基于聚类将d个字符向量划分到k个集合中,然后最小化集合内的平方和;
58、目标函数如下:
59、;
60、式中,cti表示字符向量tj被划分到第i类的字符集合,μi是集合cti的中心向量;
61、a5:对字符向量集合t聚类后得到的结果ct本文档来自技高网...
【技术保护点】
1.一种基于增强语义研判的交通案例摘要抽取方法,其特征在于,其包括以下步骤:
2.根据权利要求1所述一种基于增强语义研判的交通案例摘要抽取方法,其特征在于:所述待判断摘要和所述语义增强后摘要的生产方法为:
3.根据权利要求1所述一种基于增强语义研判的交通案例摘要抽取方法,其特征在于:步骤S4中,所述预设比例设置为1/2;
4.根据权利要求1所述一种基于增强语义研判的交通案例摘要抽取方法,其特征在于:所述摘要抽取模型训练时,使用的优化目标函数为:
5.根据权利要求1所述一种基于增强语义研判的交通案例摘要抽取方法,其特征在于:对所述优化目标函数求解最小值时,采用随机梯度下降法SGD求解。
6.根据权利要求1所述一种基于增强语义研判的交通案例摘要抽取方法,其特征在于:步骤S1中,所述语义增强用字符向量集合T的构建方法,包括以下步骤:
7.根据权利要求8所述一种基于增强语义研判的交通案例摘要抽取方法,其特征在于:步骤a4中的聚类,基于K-means聚类实现。
8.根据权利要求1所述一种基于增强语义研判的交
...【技术特征摘要】
1.一种基于增强语义研判的交通案例摘要抽取方法,其特征在于,其包括以下步骤:
2.根据权利要求1所述一种基于增强语义研判的交通案例摘要抽取方法,其特征在于:所述待判断摘要和所述语义增强后摘要的生产方法为:
3.根据权利要求1所述一种基于增强语义研判的交通案例摘要抽取方法,其特征在于:步骤s4中,所述预设比例设置为1/2;
4.根据权利要求1所述一种基于增强语义研判的交通案例摘要抽取方法,其特征在于:所述摘要抽取模型训练时,使用的优化目标函数为:
5.根据权利要求1所述一种基于增强语义研判的交通案...
【专利技术属性】
技术研发人员:周俊昊,顾金刚,徐棱,付强,祖永昶,
申请(专利权)人:公安部交通管理科学研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。