基于人工智能自适应的NLP大模型分析系统技术方案

技术编号:37610026 阅读:12 留言:0更新日期:2023-05-18 12:01
本发明专利技术涉及NLP大模型技术领域,具体地说,涉及基于人工智能自适应的NLP大模型分析系统。其包括输入单元、匹配单元和输出单元,输入单元用于对客户输入的文本信息进行采集、识别,输入单元将采集的文本信息送入匹配单元,匹配单元将文本信息与模型数据库比对、检索,输出单元抓取检索结果并进行反馈输出,对客户输入的文本信息进行词汇答复。通过纠错模块实现输入文本的信息矫正,防止文本信息中的错别字对系统检索造成影响,进而提高系统检索精度;识别模块对输入文本信息的长度进行判别,可将单词与长、短句词汇进行区分,单词可直接进入关键词检索,进而提升系统的反应速度,大大提升了人工智能回复问题的速度。大提升了人工智能回复问题的速度。大提升了人工智能回复问题的速度。

【技术实现步骤摘要】
基于人工智能自适应的NLP大模型分析系统


[0001]本专利技术涉及NLP大模型
,具体地说,涉及基于人工智能自适应的NLP大模型分析系统。

技术介绍

[0002]自然语言处理(NLP)是实现人与计算机之间用自然语言进行有效通信的各种理论和方法,自然语言是人类发展过程中形成的一种信息交流的方式,包括口语及书面语,反映了人类的思维,自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。
[0003]在智能客服等实际应用场景中,人工智能通过NLP大模型分析系统对用户输入的文本信息进行分析、回复,实现人机交互,而用户输入的文本信息中,由于用户的大意会出现错别字等错误信息,而错别字会污染输入文本,进而造成系统的误判,系统使用错误的文本信息指令在模型数据库中检索,在进行答案输出时,会出现答非所问等情况的出现,严重影响系统的回复精度,因此,设计基于人工智能自适应的NLP大模型分析系统,实现输入文本的错别字矫正,提升输出文本的精确度。

技术实现思路

[0004]本专利技术的目的在于提供基于人工智能自适应的NLP大模型分析系统,以解决上述
技术介绍
中提出的问题。
[0005]为实现上述目的,本专利技术提供基于人工智能自适应的NLP大模型分析系统,包括输入单元、匹配单元和输出单元,所述输入单元用于对客户输入的文本信息进行采集、识别,所述输入单元将采集的文本信息送入匹配单元,所述匹配单元将文本信息与模型数据库比对、检索,所述输出单元抓取检索结果并进行反馈输出,对客户输入的文本信息进行词汇答复。
[0006]作为本技术方案的进一步改进,所述输入单元包括输入模块和识别模块,所述识别模块通过文本占用计算机存储器字节进行判断,对长、短句词汇和单词进行识别、区分。
[0007]作为本技术方案的进一步改进,所述匹配单元包括纠错模块,所述纠错模块用于对文本信息进行校对,并对错误词汇进行纠正,经过所述纠错模块矫正的文本信息被送入并行检索模块,所述并行检索模块将文本信息与模型数据库检索,所述并行检索模块将检索结构输入至匹配模块,所述匹配模块将检索结果与文本信息进行匹配。
[0008]作为本技术方案的进一步改进,所述并行检索模块包括整段词汇检索模块、关键词提取模块和关键词检索模块,所述关键词提取模块用于对长、短句词汇中的关键词进行提取,一方面将关键词洗入模型数据库通过关键词检索模块进行词汇检索,另一方面将长、短句词汇整个洗入模型数据库通过整段词汇检索模块进行词汇检索。
[0009]作为本技术方案的进一步改进,所述关键词提取模块在对文本关键词进行提取时包括以下步骤:
[0010]S2.1、将输入的原始文本信息进行文本预处理,将长、短句词汇的原始文本中词语的统计信息抽取文档的关键词;
[0011]S2.2、对原始文本信息进行预处理得到候选词的集合组成的候选词库;
[0012]S2.3、采用关键词算法对候选词权重进行计算;
[0013]S2.4、从候选词库中得到关键词。
[0014]作为本技术方案的进一步改进,所述关键词算法为:
[0015]TF

IDF=TF
×
IDF;
[0016]IDF=log(语料库中文档总数/(包含该词的文档数+1))。
[0017]其中,TF表示一个词在文档中出现的次数;DF表示整个语料库中含有某个词的文档个数;IDF为逆文档频率;+1的作用是做平滑处理;
[0018]TF

IDF值越大表示该特征词对这个文本的重要性越大,即表示该特征词权重占比较大,因此,将TF

IDF值较大的词作为关键词。
[0019]作为本技术方案的进一步改进,所述纠错模块包括文本输入模块,所述文本输入模块将输入单元中的文本信息输入至词序列模块中,所述词序列模块通过对比文本与专业相关词库的相似度对句子相关语序进行检索,若输入的文本信息没有错误,直接通过合法性检查模块检索确认后,由矫正输出模块将文本信息输出;
[0020]经过词序列模块对比后,若发现文本信息有错误,则通过错别字定位模块对错别字进行定位,通过候选词生成模块从专业相关词库选出与错别字相似的待选词,将待选词生成错别字纠正用候选集。
[0021]作为本技术方案的进一步改进,所述错别字定位模块基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图,采用动态规划查找最大概率路径,找出基于词频的最大切分组合,整合字粒度和词粒度,并通过困惑度计算得到错别字位置。
[0022]作为本技术方案的进一步改进,所述矫正输出模块遍历所有的疑似错误位置,并使用音似、形似词典替换错误位置的词,得到最优纠正词。
[0023]作为本技术方案的进一步改进,所述输出单元包括答案抓取模块和答案输出模块,所述答案抓取模块将最优纠正词从待选词的候选集中抓取出来,并通过答案输出模块进行输出。
[0024]与现有技术相比,本专利技术的有益效果:
[0025]1、该基于人工智能自适应的NLP大模型分析系统中,通过纠错模块实现输入文本的信息矫正,防止文本信息中的错别字对系统检索造成影响,进而提高系统检索精度。
[0026]2、该基于人工智能自适应的NLP大模型分析系统中,设置有识别模块,对输入文本信息的长度进行判别,可将单词与长、短句词汇进行区分,单词可直接进入关键词检索,进而提升系统的反应速度,大大提升了人工智能回复问题的速度。
[0027]3、该基于人工智能自适应的NLP大模型分析系统中,通过并行检索模块,实现关键词检索与整段词汇检索共同检索,对输入文本进行多重检索,最后由答案抓取模块在待选词的候选集中抓取最优结果,进而提升系统输出的准确度。
附图说明
[0028]图1为本专利技术实施例1的整体结构框图;
[0029]图2为本专利技术实施例1的并行检索模块结果框图;
[0030]图3为本专利技术实施例1的纠错模块结构框图;
[0031]图4为本专利技术实施例1的关键词提取模块流程框图。
[0032]图中各个标号意义为:
[0033]1、输入单元;101、输入模块;102、识别模块;1021、长、短句词汇;1022、单词;
[0034]2、匹配单元;
[0035]201、纠错模块;2011、文本输入模块;2012、词序列模块;2013、专业相关词库;2014、错别字定位模块;2015、候选词生成模块;2016、合法性检查模块;2017、矫正输出模块;
[0036]203、并行检索模块;2031、整段词汇检索模块;2032、关键词提取模块;2033、关键词检索模块;204、匹配模块;
[0037]3、模型数据库;
[0038]4、输出单元;401、答案抓取模块;402、答案输出模块。
具体实施方式
[0039]下面将结合本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于人工智能自适应的NLP大模型分析系统,其特征在于:包括输入单元(1)、匹配单元(2)和输出单元(4),所述输入单元(1)用于对客户输入的文本信息进行采集、识别,所述输入单元(1)将采集的文本信息送入匹配单元(2),所述匹配单元(2)将文本信息与模型数据库(3)比对、检索,所述输出单元(4)抓取检索结果并进行反馈输出,对客户输入的文本信息进行词汇答复。2.根据权利要求1所述的基于人工智能自适应的NLP大模型分析系统,其特征在于:所述输入单元(1)包括输入模块(101)和识别模块(102),所述识别模块(102)通过文本占用计算机存储器字节进行判断,对长、短句词汇(1021)和单词(1022)进行识别、区分。3.根据权利要求1所述的基于人工智能自适应的NLP大模型分析系统,其特征在于:所述匹配单元(2)包括纠错模块(201),所述纠错模块(201)用于对文本信息进行校对,并对错误词汇进行纠正,经过所述纠错模块(201)矫正的文本信息被送入并行检索模块(203),所述并行检索模块(203)将文本信息与模型数据库(3)检索,所述并行检索模块(203)将检索结构输入至匹配模块(204),所述匹配模块(204)将检索结果与文本信息进行匹配。4.根据权利要求3所述的基于人工智能自适应的NLP大模型分析系统,其特征在于:所述并行检索模块(203)包括整段词汇检索模块(2031)、关键词提取模块(2032)和关键词检索模块(2033),所述关键词提取模块(2032)用于对长、短句词汇(1021)中的关键词进行提取,一方面将关键词洗入模型数据库(3)通过关键词检索模块(2033)进行词汇检索,另一方面将长、短句词汇(1021)整个洗入模型数据库(3)通过整段词汇检索模块(2031)进行词汇检索。5.根据权利要求4所述的基于人工智能自适应的NLP大模型分析系统,其特征在于:所述关键词提取模块(2032)在对文本关键词进行提取时包括以下步骤:S2.1、将输入的原始文本信息进行文本预处理,将长、短句词汇(1021)的原始文本中词语的统计信息抽取文档的关键词;S2.2、对原始文本信息进行预处理得到候选词的集合组成的候...

【专利技术属性】
技术研发人员:邵瑞琪徐可人胡正扬蔡晓志
申请(专利权)人:北京面壁智能科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1