基于层次化自注意力网络的文档评级方法和装置制造方法及图纸

技术编号：29675139 阅读：30 留言：0更新日期：2021-08-13 21:57

本发明专利技术实施例公开了基于层次化自注意力网络的文档评级方法和装置。该方法包括：获取目标文档的评论文本，其中，所述评论文本包含多个评论，各评论包含多个句子；提取各句子中各词语的特征；基于自注意力机制，从各评论中各句子所包含全部词语的特征中提取各评论中各句子的特征；基于自注意力机制，从各评论所包含的所述多个句子的特征中提取各评论的特征；基于自注意力机制，从所述多个评论的特征中提取所述评论文本的特征；根据所述评论文本的特征，生成所述目标文档的评级结果。基于该方法和装置，可以充分捕捉目标文档的评论文本所包含的深层次语义信息，进而自动给出针对目标文档的评级结果。

全部详细技术资料下载

【技术实现步骤摘要】
基于层次化自注意力网络的文档评级方法和装置
本专利技术实施例涉及计算机
，尤其涉及基基于层次化自注意力网络的文档评级方法和装置、电子设备和存储介质。
技术介绍
随着移动互联网的普及，网民已经习惯于在网络上表达意见和建议，包括电商网站上对商品的评价，社交媒体中对政策的评价，甚至是在文档评级工作中对文档的审阅意见等。这些评价中都蕴含了丰富的主观信息和情感导向。文本情感分析旨在分析出文本中针对某个对象的评价的正负面，从非结构化的文本评论中抽取出关键信息要素，对描述词进行抽象与归类。当前情感分析的主要任务包括：词级别情感分析、句子、文档级别情感分析、目标级别情感分析。词级别情感分析研究的是如何给词赋予情感信息，打上“正面”或“负面”情感标签，句子级情感分析则是给整个句子对应情感标签，而目标级情感分析是考虑了具体的目标实体，综合该实体属性集合下的各个属性的情感分析。其中，情感识别主要任务包括评价关键词抽取和评价关键词分类，而关键词抽取技术是整个文本信息特征提取的核心，关键词是能够表达文档中心内容的词语，关键词提取是文本挖掘领域的一个重要分支，也是文本分类研究的基础性工作。在自然语言处理任务中，文本评论评级预测技术作为一项快速发展的技术，具有广泛的应用前景。目前，现有的大多数研究将文本评论评级预测作为一个多分类/回归任务，通过有监督的机器学习进行预测，在这个过程中，大多数研究都集中在如何高效提取有效特征，然而，特征工程是一项耗时费力的工作。近年来，随着神经网络的发展，为了从文本数据中自动学习特征并挖掘更丰富的文本信...

【技术保护点】
1.一种基于层次化自注意力网络的文档评级方法，其特征在于，包括：/n获取目标文档的评论文本，其中，所述评论文本包含多个评论，各评论包含多个句子；/n提取各句子中各词语的特征；/n基于自注意力机制，从各评论中各句子所包含全部词语的特征中提取各评论中各句子的特征；/n基于自注意力机制，从各评论所包含的所述多个句子的特征中提取各评论的特征；/n基于自注意力机制，从所述多个评论的特征中提取所述评论文本的特征；/n根据所述评论文本的特征，生成所述目标文档的评级结果。/n

【技术特征摘要】
1.一种基于层次化自注意力网络的文档评级方法，其特征在于，包括：
获取目标文档的评论文本，其中，所述评论文本包含多个评论，各评论包含多个句子；
提取各句子中各词语的特征；
基于自注意力机制，从各评论中各句子所包含全部词语的特征中提取各评论中各句子的特征；
基于自注意力机制，从各评论所包含的所述多个句子的特征中提取各评论的特征；
基于自注意力机制，从所述多个评论的特征中提取所述评论文本的特征；
根据所述评论文本的特征，生成所述目标文档的评级结果。

2.如权利要求1所述的基于层次化自注意力网络的文档评级方法，其特征在于，所述基于自注意力机制，从各评论中各句子所包含全部词语的特征中提取各评论中各句子的特征，包括：
基于第一自注意力模型，对各评论中各句子所包含全部词语的特征进行处理，提取各词语与所在句子中其他词语之间的关系，得到各评论中各句子所包含的各词语的基于上下文感知的特征；
从各评论中各句子所包含全部词语的基于上下文感知的特征中提取各评论中各句子的特征。

3.如权利要求2所述的基于层次化自注意力网络的文档评级方法，其特征在于，所述从各评论中各句子所包含全部词语的基于上下文感知的特征中提取各评论中各句子的特征，包括：
基于第二自注意力模型，对各评论中各句子所包含全部词语的基于上下文感知的特征进行处理，确定各评论中各句子所包含的各词语的基于上下文感知的特征的注意力权重，其中，所述各评论中各句子所包含的各词语的基于上下文感知的特征的注意力权重用于表示各评论中各句子所包含的各词语在所在句子中的重要程度；
根据各评论中各句子所包含全部词语的基于上下文感知的特征的注意力权重，对各评论中各句子所包含全部词语的基于上下文感知的特征进行加权连接，得到各评论中各句子的特征。

4.如权利要求3所述的基于层次化自注意力网络的文档评级方法，其特征在于，所述基于自注意力机制，从各评论所包含的所述多个句子的特征中提取各评论的特征，包括：
基于第三自注意力模型，对各评论所包含的所述多个句子的特征进行处理，提取各评论中各句子与所在评论中其他句子之间的关系，得到各评论中各句子的基于上下文感知的特征；
从各评论所包含的所述多个句子的基于上下文感知的特征中提取各评论的特征。

5.如权利要求4所述的基于层次化自注意力网络的文档评级方法，其特征在于，所述从各评论所包含的所述多个句子的基于上下文感知的特征中提取各评论的特征，包括：
基于第四自注意力模型，对各评论所包含的所述多个句子的基于上下文感知的特征进行处理，确定各评论中各句子的基于上下文感知的特征的注意力权重，其中，所述各评论中各句子的基于上下文感知的特征的注意力权重用于表示各评论中各句子在所在评论中的重要程度；
根据各评...

【专利技术属性】
技术研发人员：李欣，赵志云，葛自发，孙小宁，张冰，万欣欣，袁钟怡，赵忠华，孙立远，付培国，王禄恒，王晴，
申请(专利权)人：国家计算机网络与信息安全管理中心，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人