一种公文自动写作方法技术

技术编号：35017727 阅读：37 留言：0更新日期：2022-09-24 22:44

本发明专利技术公开一种公文自动写作方法。该方法包括：构建自动写作语料库；根据写作内容确定公文包含的模块，并针对每个模块执行：获取用户输入参数，所述输入参数包括公文的文种、主题词和发文机关；根据用户输入的主题词关联到相关领域的公文语料库，并在句子库中搜索符合当前模块的候选句子，得到候选句子集；根据主题关联度、领域词汇、陈述短语、句子所属发文机关以及句子连贯度，对候选句子评价并计算各项特征的得分；利用经训练的权重计算模型，为候选句子的各项特征计算相应的权重值，并计算每个候选句子的总评分；选取评分高的候选句子插入当前模块中，直到当前模块字数达到设定的字数范围上限。本发明专利技术可准确高效的实现自动公文写作。写作。写作。

全部详细技术资料下载

【技术实现步骤摘要】
一种公文自动写作方法

[0001]本专利技术涉及自然语言处理
，更具体地，涉及一种公文自动写作方法。

技术介绍

[0002]公文是按照特定的结构和内容要求撰写，并经过严格审核后形成的书面材料。一般来说，公文可以划分为十五个文种，每种公文对文章结构、内容要素都有相对确定的写作要求和规范。例如，“办法”类和“规定
”ꢀ
类公文中第一条陈述的内容通常是该公文的制定目的，第二条陈述的内容通常是该公文的适用范围。可见，如果能让计算机理解公文的成文规律，实现公文自动写作，能够缩短公文的撰写时间，从而提高效率。
[0003]在现有技术中，自动写作方法大致分为三类：第一类是通过训练句子的深度学习模型预测字符序列，从而生成公文内容，这类方法的缺点是需要庞大的语料集，模型训练时间长，生成的公文内容通常比较随机和重复，甚至出现前言不搭后语现象。在第二类方法中，撰写者预先定制某个领域内的公文模板，生成新公文时只需要修改模板中的变量或参数。但这类方法生成的公文在结构上往往千篇一律，不符合实际应用场景的随机性。第三类方法是首先让撰写者输入公文标题信息，然后在语料集中匹配具有相似标题、种类的旧公文，这类方法完全忽略了公文本身的时间先进性。综上，目前已有的自动写作方法都难以满足实际的公文撰写需求。

技术实现思路

[0004]本专利技术的目的是克服上述现有技术的缺陷，提供一种公文自动写作方法。该方法包括以下步骤：
[0005]构建公文自动写作语料库，包括构建领域公文语料...

【技术保护点】

【技术特征摘要】
1.一种公文自动写作方法，包括以下步骤：构建公文自动写作语料库，包括构建领域公文语料库、带标签的句子库和领域词典；用户根据写作内容确定公文中包含的模块，并设置各模块的字数限制范围；针对所确定的每个模块，执行：获取用户输入参数，所述输入参数包括公文的文种、主题词和发文机关；根据用户输入的主题词关联到相关领域的公文语料库，并在句子库中搜索符合当前模块的候选句子，得到候选句子集；根据主题关联度、领域词汇、陈述短语、句子所属发文机关以及句子连贯度中的多项特征，对候选句子进行评价并计算各项特征的得分，进而获得候选句子的特征值；利用基于公文语料库训练的权重计算模型，为候选句子的各项特征计算相应的权重值，并计算每个候选句子的总评分；选取评分高的候选句子插入当前模块中，并将被选中的句子从候选句子集中移除，直到当前模块字数达到用户设定的字数范围上限。2.根据权利要求1所述的方法，其特征在于，根据以下步骤构建所述公文自动写作语料库：按照公文涉及的不同领域将公文进行文本分类，建立各领域公文语料库；根据句子语义信息，为各领域公文语料库中的每个句子打标签，得到各领域的句子库；识别并提取出各领域公文语料库中的领域词汇，得到领域词典。3.根据权利要求2所述的方法，其特征在于，所述文本分类包括：构建文本数据集，该文本数据集包含多个样本，每个样本反映文本与类别之间对应关系；利用所述文本数据集训练分类器；将目标公文输入到经训练的分类器，获得该目标公文的类别。4.根据权利要求2所述的方法，其特征在于，所述句子库是由句子、句子所属发文机关以及标签组成的集合，表示为：其中，Text
i
是公文中表达完整语义信息的句子，Agency
i
是句子所属的发文机关，Label
i
是句子对应的标签。5.根据权利要求2所述的方法，其特征在于，根据以下步骤构建所述领域词典：以各领域的公文语料库作为数据集，该数据集的每条样本反映领域类别与领域词汇之间的对应关系；利用所述数据集训练深度学习模型；将目标领域输入到经训练的深度学习模型，获得对应的领域词汇，构建为领域词典。6.根据权利要求1所述的方法，其特征在于，通过以下步骤计算所述候选句子的特征值：基于语言模型计算所有候选句子与主题词的关联度；选择主题关联度得分最高的句子作为当前模块正文的第一个句子；
利用所构建的领域词典识别候选句子中...

【专利技术属性】
技术研发人员：施运梅，李源华，
申请(专利权)人：北京信息科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人