System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大模型TN-Bart的新闻生成方法和系统技术方案_技高网

一种基于大模型TN-Bart的新闻生成方法和系统技术方案

技术编号:41537558 阅读:16 留言:0更新日期:2024-06-03 23:16
本发明专利技术提供了一种基于大模型TN‑Bart的新闻生成方法和系统,所述方法包括:获取不同领域和类型的新闻语料数据,并获取每篇新闻数据的标题数据,根据标题数据提取对应新闻语料的提示词;获取提示词的tf‑idf权重,根据所述tf‑idf权重将提示词和对应新闻语料进行拼接,得到拼接语料;对拼接语料进行词嵌入,得到拼接语句的词向量特征,并获取每个词向量的权重特征和位置特征,将所述词向量特征、对应词向量的权重特征和位置特征编码后得到token;将每个token根据上下文语义信息嵌入注意力特征,将嵌入注意力特征的当前token计算和其它token之间的注意力向量系数,采用注意力机制输出对应的新闻数据。

【技术实现步骤摘要】

本专利技术涉及新闻,特别涉及一种基于大模型tn-bart的新闻生成方法和系统。


技术介绍

1、目前,文本生成主要的方法有基于词典的方法、基于规则的方法、使用模板的方法和使用神经网络的方法,其中采用神经网络生成文本效果较好,文本生成的任务大部分集中在机器翻译,文本摘要,人机问答,创意写作,图像字幕等方面。以上方法采用序列到序列的循环神经网络(或长短期记忆神经网络)进行生成,无法处理较长的序列,同时模型参数多无法进行并行计算。目前基于transformer的架构的模型,在新闻文本生成中,可以完成相关机器翻译,文本生成,文本排序,文本填空,文本抽取等较复杂的文本生成任务。另外上述现有技术存在如下技术问题:基于transformer架构的预训练模型主要应用聚焦于新闻文本的摘要生成,特定领域的文本生成普遍存在新闻文本生成过程中,篇幅较短,句子结构单一的特点。主流的新闻媒体和公司通过神经网络a i机器人生成的新闻文本有很大的局限性,主要是使用领域有限、内容刻板生硬、情感表达欠缺、逻辑不够流畅、缺失新闻敏感度等。


技术实现思路

1、本专利技术其中一个专利技术目的在于提供一种基于大模型tn-bart的新闻生成方法和系统,所述方法和系统通过bart双向自编码模型得到新闻语义token的所有上下文关联的语义信息和位置信息,通过所述上下文关联的新闻语义token可以实现模型训练的新闻生成结果具有更好的语义连贯性和调理性,提高生成新闻的语义可读效果。

2、本专利技术另一个专利技术目的在于提供一种基于大模型tn-bart的新闻生成方法和系统,所述方法和系统利用所述bart双向自编码模型生成了token的上文问语义信息和交叉融合注意力特征,同时利用解码阶段当前最新的注意力信息,从而生成质量较好的新闻文本数据。

3、本专利技术另一个专利技术目的在于提供一种基于大模型tn-bart的新闻生成方法和系统,所述方法和系统在获取到不同领域和类型的新闻数据,并基于不同领域和类型的新闻数据进行可区分的特征提示词的提取,在得到不同领域和类型的可区分特征提示词和对应新闻语料进行拼接构建输入特征向量,所述不同领域和类型的特征提示词拼接得到的输入特征向量进行训练可以使得所述tn-bart训练具有更好的泛化能力。

4、为了实现至少一个上述专利技术目的,本专利技术进一步提供一种基于大模型tn-bart的新闻生成方法,所述方法包括:

5、获取不同领域和类型的新闻语料数据,并获取每篇新闻数据的标题数据,根据所述标题数据提取对应新闻语料的提示词;

6、获取所述提示词的tf-idf权重,根据所述tf-idf权重将所述提示词和对应新闻语料进行拼接,得到拼接语料;

7、对所述拼接语料进行词嵌入,得到所述拼接语句的词向量特征,并获取每个词向量的权重特征和位置特征,将所述词向量特征、对应词向量的权重特征和位置特征编码后得到token;

8、将每个token根据上下文语义信息嵌入注意力特征,将嵌入注意力特征的当前token计算和其它token之间的注意力向量系数,根据输入的查询语句采用注意力机制输出对应的新闻数据。

9、根据本专利技术其中一个较佳实施例,所述拼接语料的获取方法包括:采用词嵌入方式获取新闻标题中存在的提示词,并计算所述提示词在所有新闻新闻语料中的tf-idf值,其中所述tf-idf值的计算方法包括:计算所述提示词在对应语料文档中的词频tf,进一步计算所述提示词的逆文档频率idf=log(语料库文档总数m/存在所述提示词的文档数n+1),则所述提示词的tf-idf=tf*idf;设置tf-idf阈值,将大于所述tf-idf阈值的提示词作为拼接词拼接到所述新闻语料中。

10、根据本专利技术另一个较佳实施例,所述拼接语料的获取方法包括:在计算得到所述标题中每个提示词的tf-idf值,并根据所述tf-idf阈值筛选出需要拼接的提示词后,按照每个提示词的tf-idf值大小,从大到小在对应语料中顺序拼接,得到所述拼接语料。

11、根据本专利技术另一个较佳实施例,所述当前token计算和其它token之间的注意力向量系数的计算方法包括:获取当前token中的目标词向量特征在当前token中所有词向量总数的词频tfn,并计算所述目标词向量在所有token中出现的频率idfn,所述注意力向量系数的计算公式为:tfn*idfn。

12、根据本专利技术另一个较佳实施例,所述注意力机制的实现方法包括:在查询过程中先计算查询矩阵q、键矩阵k和值矩阵v,上述三个矩阵为:q=f(x)=xwq,k=g(x)=xwk,v=h(x)=xwv;进一步通过如下公式进行线性变换:xattention=self-attention(qt*k)/sqr(d)*v;得到每个token关联所有token的上下语义信息和位置信息,其中xattention为注意力机制下的token特征。

13、根据本专利技术另一个较佳实施例,所述注意力机制的编码实现方法包括:对每个token特征设置残差连接,用于保持网络传输和网络框架稳定,并进一步对残差连接的token特征进行正则化处理:xattention=layernorm(xattention),用于降低数据控制误差。

14、根据本专利技术另一个较佳实施例,所述注意力机制的编码实现方法包括:在网络结构当前层的下一层进行前馈传播,采用两层线性映射并用激活函数得到如下编码计算结果:xhidden=feedforward(relu(linear(xattention))),进一步按照如下公式进行二次残差连接和正态分布归一化处理:

15、xhidden=xattention+xhidden;

16、xhidden=layernorm(xhidden);

17、以得到完整的编码结果。

18、根据本专利技术另一个较佳实施例,所述注意力机制的实现方法包括:在解码阶段和编码阶段,采用自注意力模型进行解码和编码,并对所述子注意力模型增加掩码矩阵进行如下掩码计算:xmask-selfattention=self-attention(qt*k)/sqr(d)*m*v;其中m为掩码矩阵,通过所述键矩阵k、值矩阵v和查询矩阵q计算每个token分数下的对应token表达式。

19、为了实现至少一个上述专利技术目的,本专利技术进一步提供一种基于大模型tn-bart的新闻生成系统,所述系统执行上述一种基于大模型tn-bart的新闻生成方法。

20、本专利技术提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现上述一种基于大模型tn-bart的新闻生成方法。

本文档来自技高网...

【技术保护点】

1.一种基于大模型TN-Bart的新闻生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种基于大模型TN-Bart的新闻生成方法,其特征在于,所述拼接语料的获取方法包括:采用词嵌入方式获取新闻标题中存在的提示词,并计算所述提示词在所有新闻新闻语料中的tf-idf值,其中所述tf-idf值的计算方法包括:计算所述提示词在对应语料文档中的词频TF,进一步计算所述提示词的逆文档频率IDF=log(语料库文档总数M/存在所述提示词的文档数N+1),则所述提示词的tf-idf=TF*IDF;设置tf-idf阈值,将大于所述tf-idf阈值的提示词作为拼接词拼接到所述新闻语料中。

3.根据权利要求1所述的一种基于大模型TN-Bart的新闻生成方法,其特征在于,所述拼接语料的获取方法包括:在计算得到所述标题中每个提示词的tf-idf值,并根据所述tf-idf阈值筛选出需要拼接的提示词后,按照每个提示词的tf-idf值大小,从大到小在对应语料中顺序拼接,得到所述拼接语料。

4.根据权利要求1所述的一种基于大模型TN-Bart的新闻生成方法,其特征在于,所述当前token计算和其它token之间的注意力向量系数的计算方法包括:获取当前token中的目标词向量特征在当前token中所有词向量总数的词频TFn,并计算所述目标词向量在所有token中出现的频率IDFn,所述注意力向量系数的计算公式为:TFn*IDFn。

5.根据权利要求1所述的一种基于大模型TN-Bart的新闻生成方法,其特征在于,所述注意力机制的实现方法包括:在查询过程中先计算查询矩阵Q、键矩阵K和值矩阵V,上述三个矩阵为:Q=f(X)=XWQ,K=g(X)=XWK,V=h(X)=XWV;进一步通过如下公式进行线性变换:Xattention=Self-Attention(QT*K)/sqr(d)*V;得到每个token关联所有token的上下语义信息和位置信息,其中Xattention为注意力机制下的token特征。

6.根据权利要求1所述的一种基于大模型TN-Bart的新闻生成方法,其特征在于,所述注意力机制的编码实现方法包括:对每个token特征设置残差连接,用于保持网络传输和网络框架稳定,并进一步对残差连接的token特征进行正则化处理:Xattention=LayerNorm(Xattention),用于降低数据控制误差。

7.根据权利要求1所述的一种基于大模型TN-Bart的新闻生成方法,其特征在于,所述注意力机制的编码实现方法包括:在网络结构当前层的下一层进行前馈传播,采用两层线性映射并用激活函数得到如下编码计算结果:Xhidden=FeedForward(ReLU(Linear(Xattention))),进一步按照如下公式进行二次残差连接和正态分布归一化处理:

8.根据权利要求1所述的一种基于大模型TN-Bart的新闻生成方法,其特征在于,所述注意力机制的实现方法包括:在解码阶段和编码阶段,采用自注意力模型进行解码和编码,并对所述子注意力模型增加掩码矩阵进行如下掩码计算:Xmask-Selfattention=Self-Attention(QT*K)/sqr(d)*M*V;其中M为掩码矩阵,通过所述键矩阵K、值矩阵V和查询矩阵Q计算每个token分数下的对应token表达式。

9.一种基于大模型TN-Bart的新闻生成系统,其特征在于,所述系统执行上述一种基于大模型TN-Bart的新闻生成方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现上述一种基于大模型TN-Bart的新闻生成方法。

...

【技术特征摘要】

1.一种基于大模型tn-bart的新闻生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种基于大模型tn-bart的新闻生成方法,其特征在于,所述拼接语料的获取方法包括:采用词嵌入方式获取新闻标题中存在的提示词,并计算所述提示词在所有新闻新闻语料中的tf-idf值,其中所述tf-idf值的计算方法包括:计算所述提示词在对应语料文档中的词频tf,进一步计算所述提示词的逆文档频率idf=log(语料库文档总数m/存在所述提示词的文档数n+1),则所述提示词的tf-idf=tf*idf;设置tf-idf阈值,将大于所述tf-idf阈值的提示词作为拼接词拼接到所述新闻语料中。

3.根据权利要求1所述的一种基于大模型tn-bart的新闻生成方法,其特征在于,所述拼接语料的获取方法包括:在计算得到所述标题中每个提示词的tf-idf值,并根据所述tf-idf阈值筛选出需要拼接的提示词后,按照每个提示词的tf-idf值大小,从大到小在对应语料中顺序拼接,得到所述拼接语料。

4.根据权利要求1所述的一种基于大模型tn-bart的新闻生成方法,其特征在于,所述当前token计算和其它token之间的注意力向量系数的计算方法包括:获取当前token中的目标词向量特征在当前token中所有词向量总数的词频tfn,并计算所述目标词向量在所有token中出现的频率idfn,所述注意力向量系数的计算公式为:tfn*idfn。

5.根据权利要求1所述的一种基于大模型tn-bart的新闻生成方法,其特征在于,所述注意力机制的实现方法包括:在查询过程中先计算查询矩阵q、键矩阵k和值矩阵v,上述三个矩阵为:q=f(x)=xwq,k=g(x)=xwk,v=h(x)=xwv;进一步通过如下公式进行线性变换:xattention=self-attenti...

【专利技术属性】
技术研发人员:罗志强栗青生张丽
申请(专利权)人:浙江传媒学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1