本申请涉及数据分析技术领域,提供了一种基于人工智能的文本分析方法、系统、电子设备及介质。本申请在对目标文本进行分析时,通过获取与目标文本相关的原始文本,并对原始文本进行数据增强处理,保证了训练模型的数据质量,且扩充了训练模型的数据量,避免模型过拟合,提高了对目标文本的分析效果;通过从预设模型库中获取与目标文本的应用领域对应的多个模型框架,能够有针对性的训练模型,提高模型了的性能,在使用多个模型框架基于原始文本及增强文本进行训练得到多个文本分析模型后,基于多个评价指标选取目标文本分析模型对所述目标文本进行数据分析,进一步提高了对目标文本的分析效果。文本的分析效果。文本的分析效果。
【技术实现步骤摘要】
基于人工智能的文本分析方法、系统、电子设备及介质
[0001]本申请涉及数据分析
,尤其是涉及一种基于人工智能的文本分析方法、系统、电子设备及介质。
技术介绍
[0002]随着社会的进步和科技的发展,互联网上会产生大量观点和感受的评论信息,这些评论信息对于了解用户需求、社会舆论走向和社会预期等有至关重要的意义。基于NLP的情感分析技术是利用人们对产品、服务、组织、个人、问题、事件、话题等的评论文本,分析相应的观点、情感、情绪、评价和态度的技术。
[0003]基于NLP的情感分析技术,通常需要训练人工智能模型,但由于样本不均衡,导致模型容易过拟合,鲁棒性较差,从而使得模型在对文本进行分析时效果较差。此外,不同应用领域的文本分析的侧重点有所不同,对于不同应用领域的文本,如果使用同一个模型进行分析,则会导致分析的准确性较低。
技术实现思路
[0004]有鉴于此,本申请提供一种基于人工智能的文本分析方法、系统、电子设备及介质,以解决文本分析准确性较差的技术问题。
[0005]本申请的第一方面提供一种基于人工智能的文本分析方法,所述方法包括:响应于用户对目标文本的分析指令,从文本库中获取与所述目标文本相关的原始文本;对所述原始文本进行数据增强处理,得到增强文本;识别所述目标文本的应用领域,并从预设人工智能模型库中获取与所述应用领域对应的多个模型框架;使用所述多个模型框架基于所述原始文本及所述增强文本进行训练,得到多个文本分析模型;基于多个评价指标从多个所述文本分析模型中选取目标文本分析模型;使用所述目标文本分析模型对所述目标文本进行数据分析。
[0006]在一种可能的实施方式中,所述对所述原始文本进行数据增强处理,得到增强文本包括:对所述原始文本进行分词处理,得到多个文本关键词;计算所述文本关键词在所述文本库中的第一权重,及计算所述文本关键词在所述原始文本中的第二权重;根据所述关键词的所述第一权重及所述第二权重对所述原始文本进行增强处理,得到所述增强文本。
[0007]在一种可能的实施方式中,所述根据所述关键词的所述第一权重及所述第二权重对所述原始文本进行增强处理,得到所述增强文本包括:
将所述第一权重与第一预设权重阈值进行比较,及将所述第二权重与第二预设权重阈值进行比较;当所述第一权重小于所述第一预设权重阈值,所述第二权重大于所述第二预设权重阈值时,从第一预设随机概率数组中获取第一随机概率,以所述第一随机概率对所述关键词进行掩模处理;当所述第一权重小于所述第一预设权重阈值,所述第二权重小于所述第二预设权重阈值时,从第二预设随机概率数组中获取第二随机概率,以所述第二随机概率对所述关键词进行删除处理;当所述第一权重大于所述第一预设权重阈值,所述第二权重大于所述第二预设权重阈值时,从第三预设随机概率数组中获取第三随机概率,以所述第三随机概率对所述关键词进行替换处理。
[0008]在一种可能的实施方式中,所述从文本库中获取与所述目标文本相关的原始文本包括:从所述文本库中获取预设数量的存储文本;获取所述存储文本与所述目标文本之间的相似度;从所述存储文本中获取相似度大于预设相似度阈值的目标存储文本;对所述文本库中的所有存储文本进行聚类分析,得到多个文本簇;将包括有所述目标存储文本的文本簇确定为目标文本簇;将所述目标文本簇中的存储文本确定为与所述目标文本相关的原始文本。
[0009]在一种可能的实施方式中,所述使用所述多个模型框架基于所述原始文本及所述增强文本进行训练,得到多个文本分析模型包括:提取所述原始文本及所述增强文本的主题信息;根据所述主题信息得到组合特征向量;使用所述多个模型框架基于所述组合特征向量进行训练,得到多个文本分析模型。
[0010]在一种可能的实施方式中,所述提取所述原始文本及所述增强文本的主题信息包括:使用层次狄利克雷过程算法对所述原始文本及所述增强文本进行主题提取,得到所述主题信息,所述主题信息包括文本
‑
主题分布和主题
‑
词分布。
[0011]在一种可能的实施方式中,所述基于多个评价指标从多个所述文本分析模型中选取目标文本分析模型包括:将每个所述文本分析模型及对应的多个评价指标值进行显示,将用户选定的所述文本分析模型作为所述目标文本分析模型;计算每个所述文本分析模型对应的多个评价指标值的加权均值,将所述加权均值最大的文本分析模型作为所述目标文本分析模型,或者将所述加权均值大于平均加权均值的文本分析模型作为所述目标文本分析模型。
[0012]本申请的第二方面提供一种基于人工智能的文本分析系统,所述系统包括:文本获取模块,用于响应于用户对目标文本的分析指令,从文本库中获取与所述目标文本相关的原始文本;
增强处理模块,用于对所述原始文本进行数据增强处理,得到增强文本;模型获取模块,用于识别所述目标文本的应用领域,并从预设模型库中获取与所述应用领域对应的多个模型框架;模型训练模块,用于使用所述多个模型框架基于所述原始文本及所述增强文本进行训练,得到多个文本分析模型;指标评价模块,用于基于多个评价指标从多个所述文本分析模型中选取目标文本分析模型;文本分析模块,用于使用所述目标文本分析模型对所述目标文本进行数据分析。
[0013]本申请的第三方面提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的基于人工智能的文本分析方法的步骤。
[0014]本申请的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于人工智能的文本分析方法的步骤。
[0015]本申请实施例提供的基于人工智能的文本分析方法、系统、电子设备及介质,本申请在对目标文本进行分析时,通过获取与目标文本相关的原始文本,并对原始文本进行数据增强处理,保证了训练模型的数据质量,且扩充了训练模型的数据量,避免模型过拟合,提高了对目标文本的分析效果;通过从预设模型库中获取与目标文本的应用领域对应的多个模型框架,能够有针对性的训练模型,提高模型了的性能,在使用多个模型框架基于原始文本及增强文本进行训练得到多个文本分析模型后,基于多个评价指标选取目标文本分析模型对所述目标文本进行数据分析,进一步提高了对目标文本的分析效果。
附图说明
[0016]图1是本申请实施例示出的基于人工智能的文本分析方法的流程图;图2是本申请实施例示出的基于人工智能的文本分析系统的功能模块图;图3是本申请实施例示出的电子设备的结构图。
具体实施方式
[0017]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
[0018]本专利技术实施例提供的基于人工智能的文本分析方法由电子设备执行,相应地,基于人工智能的文本分析系统运行于电子设备中。
[0019]图1是本专利技术实施例一提供的基于人工智能的文本分析方法的流程图。所述基于人工智能的文本分析本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于人工智能的文本分析方法,其特征在于,所述方法包括:响应于用户对目标文本的分析指令,从文本库中获取与所述目标文本相关的原始文本;对所述原始文本进行数据增强处理,得到增强文本;识别所述目标文本的应用领域,并从预设模型库中获取与所述应用领域对应的多个模型框架;使用所述多个模型框架基于所述原始文本及所述增强文本进行训练,得到多个文本分析模型;基于多个评价指标从多个所述文本分析模型中选取目标文本分析模型;使用所述目标文本分析模型对所述目标文本进行数据分析。2.根据权利要求1所述的基于人工智能的文本分析方法,其特征在于,所述对所述原始文本进行数据增强处理,得到增强文本包括:对所述原始文本进行分词处理,得到多个文本关键词;计算所述文本关键词在所述文本库中的第一权重,及计算所述文本关键词在所述原始文本中的第二权重;根据所述关键词的所述第一权重及所述第二权重对所述原始文本进行增强处理,得到所述增强文本。3.根据权利要求2所述的基于人工智能的文本分析方法,其特征在于,所述根据所述关键词的所述第一权重及所述第二权重对所述原始文本进行增强处理,得到所述增强文本包括:将所述第一权重与第一预设权重阈值进行比较,及将所述第二权重与第二预设权重阈值进行比较;当所述第一权重小于所述第一预设权重阈值,所述第二权重大于所述第二预设权重阈值时,从第一预设随机概率数组中获取第一随机概率,以所述第一随机概率对所述关键词进行掩模处理;当所述第一权重小于所述第一预设权重阈值,所述第二权重小于所述第二预设权重阈值时,从第二预设随机概率数组中获取第二随机概率,以所述第二随机概率对所述关键词进行删除处理;当所述第一权重大于所述第一预设权重阈值,所述第二权重大于所述第二预设权重阈值时,从第三预设随机概率数组中获取第三随机概率,以所述第三随机概率对所述关键词进行替换处理。4.根据权利要求1至3中任意一项所述的基于人工智能的文本分析方法,其特征在于,所述从文本库中获取与所述目标文本相关的原始文本包括:从所述文本库中获取预设数量的存储文本;获取所述存储文本与所述目标文本之间的相似度;从所述存储文本中获取相似度大于预设相似度阈值的目标存储文本;对所述文本库中的所有存储文本进行聚类分析,得到多个文本簇;将包括有所述目标存储文本的文本簇确定为目标文本簇;将所述目标文本簇中的存储文本确定为与所述目标文本相关的原始文本。<...
【专利技术属性】
技术研发人员:陈飞,卢林,
申请(专利权)人:深圳特为科创信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。