基于自然语言处理的物品应用分析方法及系统技术方案

技术编号:25690875 阅读:9 留言:0更新日期:2020-09-18 21:02
本发明专利技术涉及数据处理技术领域,具体提供了一种基于自然语言处理的物品应用分析方法及系统,旨在解决如何准确且高效地对海量繁杂的用户交流数据进行物品应用分析,以确定目标物品的应用状态的技术问题。为此目的,根据本发明专利技术一个实施例的方法,首先对交流数据中的每句对话信息进行对话序号以及唯一标识符设置;然后对每句对话信息进行数据清洗,随后根据对话序号与唯一标识符将数据清洗后的对话信息重新组合还原成交流数据;最后根据神经网络分类模型对还原后的交流数据进行目标物品推荐类别识别,根据识别结果输出目标物品的应用状态。通过上述步骤,能够从关于物品的交流数据中准确且快速地识别出当前物品的推荐类别,进而得出物品的应用状态。

【技术实现步骤摘要】
基于自然语言处理的物品应用分析方法及系统
本专利技术涉及数据处理
,具体涉及一种基于自然语言处理的物品应用分析方法及系统。
技术介绍
目前传统的物品如药品应用分析主要是根据物品供应量的变化趋势来分析当前物品的应用状态,然而除了物品供应量等数据,物品相关用户之间关于物品的交流数据也是物品应用分析的重要因素。通过分析用户的交流数据,能够准确了解用户对某个物品的应用态度(例如:推荐或不推荐),进而了解当前物品的应用状态。但是针对海量繁杂的用户交流数据,如果采用人工分析的方式对每个用户交流数据中的每个对话信息进行逐一分析判断用户对某个物品的应用态度,不仅费时费力,效率低下,还极易降低物品应用分析的准确性。相应地,本领域需要一种新的物品应用分析方案来解决上述问题。
技术实现思路
为了克服上述缺陷,提出了本专利技术,以提供解决或至少部分地解决如何准确且高效地对海量繁杂的用户交流数据进行物品应用分析,以确定目标物品的应用状态的技术问题的基于自然语言处理的物品应用分析方法及系统。第一方面,提供一种基于自然语言处理的物品应用分析方法,该方法包括:获取与目标物品相关的交流对象的交流数据,所述交流数据包括多个交流对象标识以及每个交流对象标识各自对应的对话信息;根据每个交流数据中每句对话信息各自对应的交流顺序,生成在所述每个交流数据中每句对话信息各自对应的对话序号;获取每个交流数据的特征信息并根据所述特征信息分别设置在所述每个交流数据中每句对话信息各自对应的唯一标识符;对每个交流数据中的对话信息进行数据清洗,随后获取在所述数据清洗后的对话信息中具有相同唯一标识符的对话信息,以及根据对话序号对所述具有相同唯一标识符的对话信息进行排序并根据排序结果生成待处理交流数据;所述待处理交流数据包括根据对话序号排列的数据清洗后的对话信息,以及每句对话信息各自对应的交流对象标识和对话序号;根据预设的神经网络分类模型对所述待处理交流数据进行目标物品推荐类别识别,根据识别结果输出目标物品的应用状态。在上述基于自然语言处理的物品应用分析方法的一个技术方案中,所述获取每个交流数据的特征信息,具体包括:获取每个交流数据的来源信息;判断是否存在具有相同来源信息的交流数据;若不存在具有相同来源信息的交流数据,则直接将所述来源信息作为交流数据的特征信息;若存在具有相同来源信息的交流数据,则获取每个交流数据中交流对象的对象特征,对每个交流数据各自对应的来源信息与对象特征进行信息组合并将信息组合结果作为每个交流数据各自对应的特征信息;并且/或者,所述对每个交流数据中的对话信息进行数据清洗,具体包括:清除对话信息中与交流对象的交流内容无关的杂乱信息,对清除杂乱信息后的对话信息分别进行信息去重处理;获取对话信息中的标点符号,将所述标点符号中除问号以及句号以外的其他标点符号均设置为逗号,随后根据每个标点符号的语义信息分别将每个标点符号转换成相应的文字信息。在上述基于自然语言处理的物品应用分析方法的一个技术方案中,当所述物品是药品时,所述根据预设的神经网络分类模型对所述待处理交流数据进行目标物品推荐类别识别,具体包括:获取所述待处理交流数据中包含目标药品的对话信息并将所述对话信息作为第一目标对话信息;获取所述第一目标对话信息的交流对象标识符;若所述交流对象标识符是医生,则根据预设的神经网络分类模型对所述第一目标对话信息进行目标药品推荐类别识别;若所述交流对象标识符是患者,则选取包含问号的第一目标对话信息作为第二目标对话信息,获取在所述待处理交流数据中对话序号排列在所述第二目标对话信息的对话序号之后且交流对象标识符是医生的对话信息,根据预设的神经网络分类模型对获取到的对话信息进行目标药品推荐类别识别;并且/或者,所述根据预设的神经网络分类模型对所述待处理交流数据进行目标物品推荐类别识别,具体包括:获取预设训练集中的交流数据样本,所述交流数据样本包括物品推荐类别信息、根据对话序号排列的数据清洗后的对话信息以及每句对话信息各自对应的交流对象标识和对话序号;基于所述交流数据样本并利用机器学习算法对预先构建的神经网络分类模型进行模型训练;根据模型训练后的神经网络分类模型对所述待处理交流数据中的目标物品进行推荐类别识别,得到目标物品对应的推荐类别。在上述基于自然语言处理的物品应用分析方法的一个技术方案中,所述预设的神经网络分类模型包括BRNN模型层、BIGRU模型层、分类函数层和推荐类别输出层;所述BRNN模型层被配置成获取对话信息的分词处理结果,根据所述分词处理结果获取所述对话信息中每个词语各自对应的词向量、根据所述对话信息中标点符号的文字信息获取所述标点符号的符号向量,以及根据所述对话信息的交流对象标识获取所述交流对象标识符的对象向量;所述BIGRU模型层被配置成根据所述BRNN模型层输出的对话信息的词向量、符号向量以及对象向量,获取所述对话信息的特征向量;所述分类函数层被配置成根据所述对话信息的特征向量,预测所述对话信息对应的每个推荐类别的概率;所述推荐类别输出层被配置成获取并输出最大概率对应的推荐类别。在上述基于自然语言处理的物品应用分析方法的一个技术方案中,还包括:所述BRNN模型层被配置成根据每个词语的语义信息获取每个词语各自对应的特征向量,根据下述公式所示的方法获取对话信息中每个词语各自对应的权重,根据每个词语各自对应的特征向量以及权重进行加权计算,得到每个词语各自对应的词向量:Tfidf(w)=tf(d,w)×idf(w)其中,所述Tfidf(w)是第w个词语的权重,所述tf(d,w)是第w个词语在第d个交流数据中的词频,所述idf(w)是第w个词语的逆文本频率指数;若所述第w个词语是目标物品的相关词语,则若所述第w个词语不是目标物品的相关词语,则所述N是交流数据的总数,所述N(w)是包含有第w个词语的交流数据的数量,所述k是预设的加权系数。第二方面,提供一种基于自然语言处理的物品应用分析系统,该系统包括:交流数据获取装置,其被配置成获取与目标物品相关的交流对象的交流数据,所述交流数据包括多个交流对象标识以及每个交流对象标识各自对应的对话信息;第一数据处理装置,其被配置成根据每个交流数据中每句对话信息各自对应的交流顺序,生成在所述每个交流数据中每句对话信息各自对应的对话序号;获取每个交流数据的特征信息并根据所述特征信息分别设置在所述每个交流数据中每句对话信息各自对应的唯一标识符;第二数据处理装置,其被配置成对每个交流数据中的对话信息进行数据清洗,随后获取在所述数据清洗后的对话信息中具有相同唯一标识符的对话信息,以及根据对话序号对所述具有相同唯一标识符的对话信息进行排序并根据排序结果生成待处理交流数据;所述待处理交流数据包括根据对话序号排列的数据清洗后的对话信息,以及每句对话信息各自对应的交流对象标识和对本文档来自技高网...

【技术保护点】
1.一种基于自然语言处理的物品应用分析方法,其特征在于,所述方法包括:/n获取与目标物品相关的交流对象的交流数据,所述交流数据包括多个交流对象标识以及每个交流对象标识各自对应的对话信息;/n根据每个交流数据中每句对话信息各自对应的交流顺序,生成在所述每个交流数据中每句对话信息各自对应的对话序号;获取每个交流数据的特征信息并根据所述特征信息分别设置在所述每个交流数据中每句对话信息各自对应的唯一标识符;/n对每个交流数据中的对话信息进行数据清洗,随后获取在所述数据清洗后的对话信息中具有相同唯一标识符的对话信息,以及根据对话序号对所述具有相同唯一标识符的对话信息进行排序并根据排序结果生成待处理交流数据;所述待处理交流数据包括根据对话序号排列的数据清洗后的对话信息,以及每句对话信息各自对应的交流对象标识和对话序号;/n根据预设的神经网络分类模型对所述待处理交流数据进行目标物品推荐类别识别,根据识别结果输出目标物品的应用状态。/n

【技术特征摘要】
1.一种基于自然语言处理的物品应用分析方法,其特征在于,所述方法包括:
获取与目标物品相关的交流对象的交流数据,所述交流数据包括多个交流对象标识以及每个交流对象标识各自对应的对话信息;
根据每个交流数据中每句对话信息各自对应的交流顺序,生成在所述每个交流数据中每句对话信息各自对应的对话序号;获取每个交流数据的特征信息并根据所述特征信息分别设置在所述每个交流数据中每句对话信息各自对应的唯一标识符;
对每个交流数据中的对话信息进行数据清洗,随后获取在所述数据清洗后的对话信息中具有相同唯一标识符的对话信息,以及根据对话序号对所述具有相同唯一标识符的对话信息进行排序并根据排序结果生成待处理交流数据;所述待处理交流数据包括根据对话序号排列的数据清洗后的对话信息,以及每句对话信息各自对应的交流对象标识和对话序号;
根据预设的神经网络分类模型对所述待处理交流数据进行目标物品推荐类别识别,根据识别结果输出目标物品的应用状态。


2.根据权利要求1所述的基于自然语言处理的物品应用分析方法,其特征在于,
所述获取每个交流数据的特征信息,具体包括:
获取每个交流数据的来源信息;
判断是否存在具有相同来源信息的交流数据;
若不存在具有相同来源信息的交流数据,则直接将所述来源信息作为交流数据的特征信息;
若存在具有相同来源信息的交流数据,则获取每个交流数据中交流对象的对象特征,对每个交流数据各自对应的来源信息与对象特征进行信息组合并将信息组合结果作为每个交流数据各自对应的特征信息;
并且/或者,
所述对每个交流数据中的对话信息进行数据清洗,具体包括:
清除对话信息中与交流对象的交流内容无关的杂乱信息,对清除杂乱信息后的对话信息分别进行信息去重处理;
获取对话信息中的标点符号,将所述标点符号中除问号以及句号以外的其他标点符号均设置为逗号,随后根据每个标点符号的语义信息分别将每个标点符号转换成相应的文字信息。


3.根据权利要求1所述的基于自然语言处理的物品应用分析方法,其特征在于,
当所述物品是药品时,所述根据预设的神经网络分类模型对所述待处理交流数据进行目标物品推荐类别识别,具体包括:
获取所述待处理交流数据中包含目标药品的对话信息并将所述对话信息作为第一目标对话信息;
获取所述第一目标对话信息的交流对象标识符;
若所述交流对象标识符是医生,则根据预设的神经网络分类模型对所述第一目标对话信息进行目标药品推荐类别识别;
若所述交流对象标识符是患者,则选取包含问号的第一目标对话信息作为第二目标对话信息,获取在所述待处理交流数据中对话序号排列在所述第二目标对话信息的对话序号之后且交流对象标识符是医生的对话信息,根据预设的神经网络分类模型对获取到的对话信息进行目标药品推荐类别识别;
并且/或者,
所述根据预设的神经网络分类模型对所述待处理交流数据进行目标物品推荐类别识别,具体包括:
获取预设训练集中的交流数据样本,所述交流数据样本包括物品推荐类别信息、根据对话序号排列的数据清洗后的对话信息以及每句对话信息各自对应的交流对象标识和对话序号;
基于所述交流数据样本并利用机器学习算法对预先构建的神经网络分类模型进行模型训练;
根据模型训练后的神经网络分类模型对所述待处理交流数据中的目标物品进行推荐类别识别,得到目标物品对应的推荐类别。


4.根据权利要求2所述的基于自然语言处理的物品应用分析方法,其特征在于,所述预设的神经网络分类模型包括BRNN模型层、BIGRU模型层、分类函数层和推荐类别输出层;
所述BRNN模型层被配置成获取对话信息的分词处理结果,根据所述分词处理结果获取所述对话信息中每个词语各自对应的词向量、根据所述对话信息中标点符号的文字信息获取所述标点符号的符号向量,以及根据所述对话信息的交流对象标识获取所述交流对象标识符的对象向量;
所述BIGRU模型层被配置成根据所述BRNN模型层输出的对话信息的词向量、符号向量以及对象向量,获取所述对话信息的特征向量;
所述分类函数层被配置成根据所述对话信息的特征向量,预测所述对话信息对应的每个推荐类别的概率;
所述推荐类别输出层被配置成获取并输出最大概率对应的推荐类别。


5.根据权利要求4所述的基于自然语言处理的物品应用分析方法,其特征在于,还包括:
所述BRNN模型层被配置成根据每个词语的语义信息获取每个词语各自对应的特征向量,根据下述公式所示的方法获取对话信息中每个词语各自对应的权重,根据每个词语各自对应的特征向量以及权重进行加权计算,得到每个词语各自对应的词向量:
Tfidf(w)=tf(d,w)×idf(w)
其中,所述Tfidf(w)是第w个词语的权重,所述tf(d,w)是第w个词语在第d个交流数据中的词频,所述idf(w)是第w个词语的逆文本频率指数;
若所述第w个词语是目标物品的相关词语,则若所述第w个词语不是目标物品的相关词语,则所述N是交流数据的总数,所述N(w)是包含有第w个词语的交流数据的数量,所述k是预设的加权系数。


6.一种基于自然语言处理的物品应用分析系统,其特征在...

【专利技术属性】
技术研发人员:崔亿萍
申请(专利权)人:北京启云数联科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1