【技术实现步骤摘要】
数字阅读中角色隐式属性智能识别分析方法、系统和应用
[0001]本专利技术属于文本信息分类
,涉及一种角色隐式属性智能识别分析方法、系统和应用。
技术介绍
[0002]近年来,随着互联网渗透率的不断提升与国家对文化软实力建设的显著增强,网络文学的市场也随之高速发展。“读小说”与“听书”开始逐渐成长为一种新的国民阅读方式,用户开始逐渐从传统的纸质阅读转换为使用手机等电子设备进行在线阅读与在线听书。这种新兴的阅读与听书方式相比传统阅读更为快捷和简便,用户也可以更高效地利用碎片时间来阅读网络文学作品。尽管目前的电子阅读与听书系统已经很成熟,但是对于一些优质的长篇网文小说,由于其世界观较为宏大、故事情节跌宕起伏、人物图谱较为复杂,在近千章节数与近百万字数的规模下,读者在阅读过程中难免会对一些角色的细节设定因存在遗忘现象而产生快速回查的需求,而完备的设定集与人物角色图谱的存在可以让用户在阅读过程中更好的了解、回查相关小说细节,从而带来更好的沉浸式阅读体验。因此,构建小说中相关角色的设定集与人物角色图谱成为了提升用户体验的一大难题。
[0003]目前业界没有类似技术或解决方案。常规方法是依赖人工对小说中相关的人物属性进行校验与标注,然后整理形成相关角色设定集与人物角色图谱。在此过程中,对于部分角色显式属性,如:功法、技能、绝招口诀、武器名、宠物、载具等,业界可能会使用抽取模型或者判别模型来辅助人工标注;然而对于小说中诸如性别、年龄、性格等角色隐式属性,目前暂无较好的解决方案。
[0004]角色显式属性是指在 ...
【技术保护点】
【技术特征摘要】
1.一种角色隐式属性智能识别分析方法,其特征在于,所述方法包括如下步骤:步骤一、使用小说领域的语料对基于BERT的预训练模型进行迁移学习,获得掩码语言模型MLM调整过的BERT的预训练模型;步骤二、获取包含有角色及其属性的角色属性小说文本数据集,并进行预处理,获得带角色属性标注的文本;步骤三、将正常文本的内容使用提示学习Prompt的建模方式转为新的文本序列,并将文本序列输入步骤一中掩码语言模型MLM调整过的BERT的预训练模型得到文本向量InputEmbedding;步骤四、将步骤三的提示学习中获得的PromptText字符序列使用对比学习的建模方式构建同一PromptText文本序列中不同角色的属性特征集合,并针对角色属性特征集合构建属性类型对特征矩阵;步骤五、拼接提示学习和对比学习的损失,并使用主动学习对数据质量进行提纯;步骤六、利用步骤一~五中获得的模型进行新文本的角色属性预测,自动化产出角色属性结果,再对结果作聚合投票产出最终角色属性类型。2.如权利要求1所述的方法,其特征在于,步骤一中,在迁移学习过程中,使用15%~20%的掩码比例,并对字粒度进行全词mask掩码;训练过程中使用交叉熵损失,并使用early stopping策略防止模型过拟合。3.如权利要求1所述的方法,其特征在于,步骤二中,所述属性小说文本数据集中的各个文本信息存在对应的角色名及其对应的包括性别、年龄、性格在内的属性值;所述预处理包括对文本信息中超过BERT预训练模型预设最大文本序列长度max_seq_len=256的异常文本进行切段处理从而得到正常段落文本,并对文本的角色信息进行提取;所述文本的角色信息的提取通过字符匹配与序列标注交叉校验的方式进行,使用序列标注模型NER,按词性对文本序列进行标注,取文本中识别结果为人名PER的字符序列作为角色抽取结果,并进行查表匹配交叉验证。4.如权利要求1所述的方法,其特征在于,步骤三中,所述Prompt建模如下:对正常的文本内容InputText={s1,
…
,s
i
,
…
,s
m
},其中s
i
表示原文本序列InputText中第i个文本字符,1≤i≤m,对InputText引入Prompt属性提示词[MASK],不同角色Name
i
之间的Prompt提示模版以[SEP]符号分隔,并最终处理为如下Prompt模版格式:PromptText=[CLS]+Name1+的性别是+[MASK]+年龄是+[MASK]+性格是+[MASK]+[SEP]+
…
+Name
n
+的性别是+[MASK]+年龄是+[MASK]+性格是+[MASK]+[SEP]+InputText={token1,
…
,token
i
,
…
,token
n
};token
i
表示加入Prompt模版及特殊编码字符后的新文字序列,新文字序列长度与PromptText经BertTokenizer分词后的编码表征序列长度一致;获得的文本向量的形式如下:文本向量其中I={id1,
…
,id
i
,
…
,id
n
},id
i
是PromptText中第i个字符经BertTokenizer处理得到文本向量的词嵌入表征input_ids向量;A={a1,
…
,
a
i
,
…
,a
n
},表示当token
i
是原始字符时位置编码attention_mask为1,当token
i
是padding字符位置编码为0;M={m1,
…
,m
i
,
…
,m
n
},表示第m
i
位的提示词[MASK]表征是何种类型的属性提示词编码mask_position特征。5.如权利要求4所述的方法,其特征在于,根据文本向量构建提示学习损失Loss_prompt:根据步骤四所得的文本向量I={id1,
…
,id
i
,
…
,id
n
}、A={a1,
…
,a
i
,
…
,a
n
},输入步骤一中微调后的BERT模型,得到逻辑输出:BERT
outputs
=BERT(input_ids=I,attention_mask=A),取逻辑输出的最后一层隐状态作为BERT对Prompt提示学习模版的编码表征,即Logits=BERT
outputs
.last_hidden_state,其维度为[batch_size,seq_len,hidd...
【专利技术属性】
技术研发人员:杨佳乐,马宇峰,徐斌,张松坡,顾炎,刘东晓,韩太军,吴杨,崔瑞博,陈炜于,
申请(专利权)人:上海阅文信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。