System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理技术,尤其涉及一种用于识别车型的同义度模型的训练方法以及识别方法。
技术介绍
1、目前,随着车辆技术的不断发展,各类车企所生产的车辆的车型也越来越多,对于普通购车用户以及车辆制造商而言,及时获知各车企所对应的车辆车型不仅有利于用户进行车辆挑选,还有利于车辆制造商进行车辆研发。
2、因此,如何从海量的数据中准确识别出车型信息是一个亟需解决的问题。
技术实现思路
1、本申请提供一种用于识别车型的同义度模型的训练方法以及识别方法,用以从大量数据中提取出车型信息。
2、第一方面,本申请提供一种用于识别车型的同义度模型的训练方法,所述方法包括:
3、获取检索关键词库和言论词库;其中,所述检索关键词库包括至少一个检索关键词;所述检索关键词为车型信息中的关键词;所述言论词库中包括至少一个言论词;所述言论词为车辆的评论信息中的词语;
4、确定所述言论词库中言论词的同义度;所述同义度表征言论词指示的信息为车型信息的概率;
5、根据所述检索关键词库、所述言论词库以及所述同义度,训练得到同义度模型;所述同义度模型用于识别评论信息中是否包含车型信息。
6、在一种可能的实现方式中,根据所述检索关键词库、所述言论词库以及所述同义度,训练得到同义度模型,包括:
7、根据所述检索关键词库和所述言论词库,确定第一相似度矩阵;其中,所述第一相似度矩阵中第i行第j列的值表征第i个言论词和第j个检索关键词之间的语义相似度
8、根据所述第一相似度矩阵和所述同义度,训练得到同义度模型。
9、在一种可能的实现方式中,根据所述检索关键词库和所述言论词库,确定第一相似度矩阵,包括:
10、确定第i个言论词的第四拼音信息和第j个检索关键词的第五拼音信息;
11、若确定所述第五拼音信息和所述第四拼音信息相同,则确定i个言论词和第j个检索关键词的编辑距离值为二者之间的语义相似度;
12、若确定所述第五拼音信息和所述第四拼音信息不同,则确定预设值为i个言论词和第j个检索关键词二者之间的语义相似度;所述预设值表征言论词和检索关键词无关;
13、根据i个言论词和第j个检索关键词的语义相似度,确定第一相似度矩阵。
14、在一种可能的实现方式中,若所述同义度模型的数量为多个,则根据所述第一相似度矩阵和所述同义度,训练得到同义度模型,包括:
15、将所述第一相似度矩阵输入至每一初始模型,得到各个初始模型各自输出的预测结果;
16、根据初始权重信息,对多个预测结果进行加权求和处理,得到求和结果;所述初始权重信息包括:初始模型对应的初始权重值;
17、根据所述求和结果和所述同义度,对所述初始权重信息以及多个初始模型进行调整处理,得到调整后的权重信息以及多个同义度模型。
18、在一种可能的实现方式中,获取检索关键词库,包括:
19、确定至少一个车型信息;
20、确定所述车型信息对应的至少一个检索关键词;其中,所述检索关键词为车型信息中经过转换处理所得到的;所述转换处理包括以下至少一项:英文字符的大小写转换处理、数字转汉字处理、分词处理、同音转换处理;其中,同音转换处理为将车型信息中的字符转换为与所述字符具有相同发音的其余字符的处理方法;
21、根据各车型信息所对应的检索关键词,得到所述检索关键词库。
22、在一种可能的实现方式中,在确定所述言论词库中言论词的同义度之前,所述方法还包括:
23、确定所述检索关键词库中的检索关键词所对应的第一拼音信息;
24、确定所述言论词库中的言论词所对应的第二拼音信息;
25、若第二拼音信息中存在第三拼音信息,且所述第三拼音信息与各第一拼音信息均不相同,则在所述言论词库中,删除所述第三拼音信息所对应的言论词,得到处理后的言论词库。
26、在一种可能的实现方式中,所述评论信息的输出形式包括以下至少一种:文本、音频、图像。
27、第二方面,本申请提供一种用于识别车型的识别方法,所述方法包括:
28、获取待分析文本,并对所述待分析文本进行分词处理,得到至少一个待分析词;
29、根据所述待分析词、检索关键词库以及同义度模型,确定所述待分析词的识别结果;所述检索关键词库包括至少一个检索关键词;所述检索关键词为车型信息中的关键词;所述同义度模型为基于第一方面中任一项所述的方法得到的模型;所述识别结果用于表征所述待分析词是否为车型信息。
30、在一种可能的实现方式中,根据所述待分析词、检索关键词库以及同义度模型,确定所述待分析词的识别结果,包括:
31、确定所述待分析词与所述检索关键词库的第二相似度矩阵;其中,所述第二相似度矩阵中的第i行第j列的值表征第i个待分析词和第j个检索关键词之间的语义相似度;i和j均为正整数;
32、将所述第二相似度矩阵输入所述同义度模型,得到待分析词的识别结果。
33、在一种可能的实现方式中,确定所述待分析词与所述检索关键词库的第二相似度矩阵,包括:
34、确定第i个待分析词的第六拼音信息和第j个检索关键词的第七拼音信息;
35、若确定所述第六拼音信息和所述第七拼音信息相同,则确定i个待分析词和第j个检索关键词的编辑距离值为二者之间的语义相似度;
36、若确定所述第六拼音信息和所述第七拼音信息不同,则确定预设值为i个待分析词和第j个检索关键词二者之间的语义相似度;所述预设值表征言论词和检索关键词无关。
37、在一种可能的实现方式中,若所述同义度模型的数量为多个,则将所述第二相似度矩阵输入所述同义度模型,得到待分析词的识别结果,包括:
38、将所述第二相似度矩阵输入至每一所述同义度模型,得到各同义度模型输出的第一结果;
39、根据训练得到的权重信息,对多个第一结果进行加权求和处理,得到待分析词的识别结果。
40、第三方面,本申请提供一种用于识别车型的同义度模型的训练装置,所述装置包括:
41、第一获取单元,用于获取检索关键词库;
42、第二获取单元,用于获取言论词库;其中,所述检索关键词库包括至少一个检索关键词;所述检索关键词为车型信息中的关键词;所述言论词库中包括至少一个言论词;所述言论词为车辆的评论信息中的词语;
43、第一确定单元,用于确定所述言论词库中言论词的同义度;所述同义度表征言论词指示的信息为车型信息的概率;
44、训练单元,用于根据所述检索关键词库、所述言论词库以及所述同义度,训练得到同义度模型;所述同义度模型用于识别评论信息中是否包含车型信息。
45、在一种可能的实现方式中,训练单元,包括:
46、第一确定模块,用于根据所述检索关键词库和所本文档来自技高网...
【技术保护点】
1.一种用于识别车型的同义度模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,根据所述检索关键词库、所述言论词库以及所述同义度,训练得到同义度模型,包括:
3.根据权利要求2所述的方法,其特征在于,根据所述检索关键词库和所述言论词库,确定第一相似度矩阵,包括:
4.根据权利要求2所述的方法,其特征在于,若所述同义度模型的数量为多个,则根据所述第一相似度矩阵和所述同义度,训练得到同义度模型,包括:
5.根据权利要求1-4中任一项所述的方法,其特征在于,获取检索关键词库,包括:
6.根据权利要求1-4中任一项所述的方法,其特征在于,在确定所述言论词库中言论词的同义度之前,所述方法还包括:
7.一种用于识别车型的识别方法,其特征在于,所述方法包括:
8.根据权利要求7所述的方法,其特征在于,根据所述待分析词、检索关键词库以及同义度模型,确定所述待分析词的识别结果,包括:
9.一种用于识别车型的同义度模型的训练装置,其特征在于,所述装置包括:
1
...【技术特征摘要】
1.一种用于识别车型的同义度模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,根据所述检索关键词库、所述言论词库以及所述同义度,训练得到同义度模型,包括:
3.根据权利要求2所述的方法,其特征在于,根据所述检索关键词库和所述言论词库,确定第一相似度矩阵,包括:
4.根据权利要求2所述的方法,其特征在于,若所述同义度模型的数量为多个,则根据所述第一相似度矩阵和所述同义度,训练得到同义度模型,包括:
5.根据权利要求1-4中任一项所述的方法,...
【专利技术属性】
技术研发人员:周鹏程,
申请(专利权)人:阿维塔科技重庆有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。