System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本标记方法、装置、电子设备及存储介质制造方法及图纸_技高网

文本标记方法、装置、电子设备及存储介质制造方法及图纸

技术编号:44147217 阅读:0 留言:0更新日期:2025-01-29 10:21
本公开提出一种文本标记方法、装置、电子设备及存储介质,涉及深度学习、自然语言处理、大模型等人工智能技术领域。具体方案为:首先确定待生成的第一字符对应的候选词集及候选词集中每个候选词对应的第一概率,然后基于预设的参考词表及已生成的文本,确定第一字符对应的白名单及黑名单,之后基于每个候选词分别与黑名单及白名单中的词的匹配结果,对该候选词对应的第一概率进行更新,得到该候选词对应的第二概率,最后基于每个候选词对应的第二概率,从候选词集中确定第一字符的目标词。

【技术实现步骤摘要】

本公开涉及深度学习、自然语言处理、大模型等人工智能,具体涉及一种文本标记方法、装置、电子设备及存储介质。


技术介绍

1、目前,对大模型的生成式文本进行标记的方式,大多是通过利用特定句式来生成文本并进行标记,但是,这种方式可能会影响文本的可读性,而且比较容易导致语义错误,影响用户体验。


技术实现思路

1、本公开旨在至少在一定程度上解决相关技术中的技术问题之一。

2、本公开第一方面实施例提出了一种文本标记方法,包括:

3、确定待生成的第一字符对应的候选词集及所述候选词集中每个候选词对应的第一概率;

4、基于预设的参考词表及已生成的文本,确定所述第一字符对应的白名单及黑名单;

5、基于每个所述候选词分别与黑名单及白名单中的词的匹配结果,对该候选词对应的第一概率进行更新,得到该候选词对应的第二概率;

6、基于每个所述候选词对应的第二概率,从所述候选词集中确定所述第一字符的目标词。

7、本公开第二方面实施例提出了一种文本标记装置,包括:

8、第一确定模块,用于确定待生成的第一字符对应的候选词集及所述候选词集中每个候选词对应的第一概率;

9、第二确定模块,用于基于预设的参考词表及已生成的文本,确定所述第一字符对应的白名单及黑名单;

10、更新模块,用于基于每个所述候选词分别与黑名单及白名单中的词的匹配结果,对该候选词对应的第一概率进行更新,得到该候选词对应的第二概率;

11、第三确定模块,用于基于每个所述候选词对应的第二概率,从所述候选词集中确定所述第一字符的目标词。

12、本公开第三方面实施例提出了一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本公开第一方面实施例提出的文本标记方法。

13、本公开第四方面实施例提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,实现如本公开第一方面实施例提出的文本标记方法。

14、本公开第五方面实施例提出了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时,实现如本公开第一方面实施例提出的文本标记方法。

15、本公开提供的文本标记方法、装置、电子设备及存储介质,存在如下有益效果:

16、本公开实施例中,首先确定待生成的第一字符对应的候选词集及候选词集中每个候选词对应的第一概率,然后基于预设的参考词表及已生成的文本,确定第一字符对应的白名单及黑名单,之后基于每个候选词分别与黑名单及白名单中的词的匹配结果,对该候选词对应的第一概率进行更新,得到该候选词对应的第二概率,最后基于每个候选词对应的第二概率,从候选词集中确定第一字符的目标词。由此,通过基于待生成字符对应的黑白名单,对待生成字符对应的每个候选词的共现概率进行调整,基于调整后的共现概率,从候选词中确定待生成字符的目标词,从而在增强文本可读性的基础上,确保了确定的待生成字符的目标词符合文本语义,提高了文本标记的质量以及效果,提升了用户体验。

17、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种文本标记方法,包括:

2.如权利要求1所述的方法,其中,所述基于预设的参考词表及已生成的文本,确定所述第一字符对应的白名单及黑名单,包括:

3.如权利要求2所述的方法,其中,所述根据所述第一参考词集表及所述已生成的文本,确定所述第一字符对应的黑名单,包括:

4.如权利要求2所述的方法,其中,所述根据所述第二参考词集表及所述已生成的文本,确定所述第一字符对应的白名单,包括:

5.如权利要求2所述的方法,其中,在所述对所述多个参考文本进行统计之后,还包括:

6.如权利要求5所述的方法,其中,所述基于所述高频词集,对所述第一字符对应的白名单进行更新,包括:

7.如权利要求1所述的方法,其中,所述基于每个所述候选词分别与黑名单及白名单中的词的匹配结果,对该候选词对应的第一概率进行更新,得到该候选词对应的第二概率,包括:

8.如权利要求1所述的方法,其中,所述基于每个所述候选词分别与黑名单及白名单中的词的匹配结果,对该候选词对应的第一概率进行更新,得到该候选词对应的第二概率,包括:

9.如权利要求1-8任一所述的方法,其中,在所述从所述候选词集中确定所述第一字符的目标词之后,还包括:

10.一种文本标记装置,其中,所述装置包括:

11.如权利要求10所述的装置,其中,所述第二确定模块,具体用于:

12.如权利要求11所述的装置,其中,所述第二确定模块,还用于:

13.如权利要求11所述的装置,其中,所述第二确定模块,还用于:

14.如权利要求11所述的装置,其中,所述第二确定模块,还用于:

15.如权利要求14所述的装置,其中,所述第二确定模块,还用于:

16.如权利要求10所述的装置,其中,所述更新模块,具体用于:

17.如权利要求10所述的装置,其中,所述更新模块,具体用于:

18.如权利要求10-17任一所述的装置,其中,所述第三确定模块,还用于:

19.一种电子设备,其特征在于,包括:

20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。

21.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。

...

【技术特征摘要】

1.一种文本标记方法,包括:

2.如权利要求1所述的方法,其中,所述基于预设的参考词表及已生成的文本,确定所述第一字符对应的白名单及黑名单,包括:

3.如权利要求2所述的方法,其中,所述根据所述第一参考词集表及所述已生成的文本,确定所述第一字符对应的黑名单,包括:

4.如权利要求2所述的方法,其中,所述根据所述第二参考词集表及所述已生成的文本,确定所述第一字符对应的白名单,包括:

5.如权利要求2所述的方法,其中,在所述对所述多个参考文本进行统计之后,还包括:

6.如权利要求5所述的方法,其中,所述基于所述高频词集,对所述第一字符对应的白名单进行更新,包括:

7.如权利要求1所述的方法,其中,所述基于每个所述候选词分别与黑名单及白名单中的词的匹配结果,对该候选词对应的第一概率进行更新,得到该候选词对应的第二概率,包括:

8.如权利要求1所述的方法,其中,所述基于每个所述候选词分别与黑名单及白名单中的词的匹配结果,对该候选词对应的第一概率进行更新,得到该候选词对应的第二概率,包括:

9.如权利要求1-8任一所述的方法,其中,在所述从所述候选词集中...

【专利技术属性】
技术研发人员:胡康刘佳祥胡腾徐伟建
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1