一种公文自动写作方法技术

技术编号:35017727 阅读:37 留言:0更新日期:2022-09-24 22:44
本发明专利技术公开一种公文自动写作方法。该方法包括:构建自动写作语料库;根据写作内容确定公文包含的模块,并针对每个模块执行:获取用户输入参数,所述输入参数包括公文的文种、主题词和发文机关;根据用户输入的主题词关联到相关领域的公文语料库,并在句子库中搜索符合当前模块的候选句子,得到候选句子集;根据主题关联度、领域词汇、陈述短语、句子所属发文机关以及句子连贯度,对候选句子评价并计算各项特征的得分;利用经训练的权重计算模型,为候选句子的各项特征计算相应的权重值,并计算每个候选句子的总评分;选取评分高的候选句子插入当前模块中,直到当前模块字数达到设定的字数范围上限。本发明专利技术可准确高效的实现自动公文写作。写作。写作。

【技术实现步骤摘要】
一种公文自动写作方法


[0001]本专利技术涉及自然语言处理
,更具体地,涉及一种公文自动写 作方法。

技术介绍

[0002]公文是按照特定的结构和内容要求撰写,并经过严格审核后形成的书 面材料。一般来说,公文可以划分为十五个文种,每种公文对文章结构、 内容要素都有相对确定的写作要求和规范。例如,“办法”类和“规定
”ꢀ
类公文中第一条陈述的内容通常是该公文的制定目的,第二条陈述的内容 通常是该公文的适用范围。可见,如果能让计算机理解公文的成文规律, 实现公文自动写作,能够缩短公文的撰写时间,从而提高效率。
[0003]在现有技术中,自动写作方法大致分为三类:第一类是通过训练句子 的深度学习模型预测字符序列,从而生成公文内容,这类方法的缺点是需 要庞大的语料集,模型训练时间长,生成的公文内容通常比较随机和重复, 甚至出现前言不搭后语现象。在第二类方法中,撰写者预先定制某个领域 内的公文模板,生成新公文时只需要修改模板中的变量或参数。但这类方 法生成的公文在结构上往往千篇一律,不符合实际应用场景的随机性。第 三类方法是首先让撰写者输入公文标题信息,然后在语料集中匹配具有相 似标题、种类的旧公文,这类方法完全忽略了公文本身的时间先进性。综 上,目前已有的自动写作方法都难以满足实际的公文撰写需求。

技术实现思路

[0004]本专利技术的目的是克服上述现有技术的缺陷,提供一种公文自动写作方 法。该方法包括以下步骤:
[0005]构建公文自动写作语料库,包括构建领域公文语料库、带标签的句子 库和领域词典;
[0006]用户根据写作内容确定公文中包含的模块,并设置各模块的字数限制 范围;
[0007]针对所确定的每个模块,执行:
[0008]获取用户输入参数,所述输入参数包括公文的文种、主题词和发文机 关;
[0009]根据用户输入的主题词关联到相关领域的公文语料库,并在句子库中 搜索符合当前模块的候选句子,得到候选句子集;
[0010]根据主题关联度、领域词汇、陈述短语、句子所属发文机关以及句子 连贯度中的多项特征,对候选句子进行评价并计算各项特征的得分,进而 获得候选句子的特征值;
[0011]利用基于公文语料库训练的权重计算模型,为候选句子的各项特征计 算相应的权重值,并计算每个候选句子的总评分;
[0012]选取评分高的候选句子插入当前模块中,并将被选中的句子从候选句 子集中移除,直到当前模块字数达到用户设定的字数范围上限。
[0013]与现有技术相比,本专利技术的优点在于,提供公文自动写作语料库构建 方法及自动写作方法,所生成的公文内容逻辑性和严谨性强,能够实现公 文的高效率自动撰写。
[0014]通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其 它特征及其优点将会变得清楚。
附图说明
[0015]被结合在说明书中并构成说明书的一部分的附图示出了本专利技术的实 施例,并且连同其说明一起用于解释本专利技术的原理。
[0016]图1是根据本专利技术一个实施例的公文自动写作语料库构建方法的流程 图;
[0017]图2是根据本专利技术一个实施例的公文自动写作方法的流程图;
[0018]图3是根据本专利技术一个实施例的公文自动写作方法中步骤S240的流 程图;
[0019]图4是根据专利技术一个实施例的公文自动写作方法中步骤S250的流程 图。
具体实施方式
[0020]现在将参照附图来详细描述本专利技术的各种示例性实施例。应注意到: 除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、 数字表达式和数值不限制本专利技术的范围。
[0021]以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作 为对本专利技术及其应用或使用的任何限制。
[0022]对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨 论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
[0023]在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例 性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的 值。
[0024]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一 旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步 讨论。
[0025]本专利技术旨在解决公文的自动撰写问题,以提高撰写效率,所提供的技 术方案整体上包括自动写作语料库构建以及公文自动写作。利用本专利技术能 够实现多种类型的具有成文规律的公文自动撰写,为清楚起见,以下以政 府公文为例进行说明。
[0026]参见图1所示,所提供的公文自动写作语料库构建方法具体包括以下 步骤。
[0027]步骤S110,建立公文语料库:按照公文涉及的不同领域将政府公文 进行文本分类,建立各领域的公文语料库。
[0028]利用文本分类建立各领域的语料库是保证生成的公文内容具有一致 性和严谨性的第一步。由于政府公文涉及的领域十分广泛,例如经济领域、 公共交通领域、环境保护领域、科技创新领域、公共安全领域等,因此将 政府公文集按不同领域进行正确的文本分类是一个重要环节。
[0029]具体地,文本分类是将文本按照一定的规则分门别类,此过程需要对 部分数据进行打标签来训练分类器,训练好的分类器可将公文分配到概率 最大的类别中,从而实现各领域公文语料库的构建。
[0030]例如,政府公文按领域分类后可表示为以下形式:
[0031]《北京市轨道交通运营安全条例》——交通安全领域类;
[0032]《北京市森林防火办法》——防火安全领域类;
[0033]《北京市道路交通安全防范责任制管理办法》——交通安全领域类;
[0034]《北京市环境噪声污染防治办法》——污染防治领域类。
[0035]在该步骤中,所构建的公文预料库可以反映目标公文与领域类别之间 的对应关系。
[0036]步骤S120,建立带标签的句子库:根据句子语义信息,给公文语料 库中的每个句子打上标签,得到各领域的句子库。
[0037]政府公文具有十分严谨的结构要求。例如,“办法”类公文和“规定
”ꢀ
类公文中第一条陈述的内容通常是该公文的制定目的,第二条陈述的内容 通常是公文的适用范围,第三条陈述的内容通常是公文的执行机关,后续 依次是责任制度、检查方法、监督方法、表彰与奖励、行政与处罚以及公 文的效力、解释权、施行日期等模块。由于用户输入的发文机关与公文结 构密切相关,所以在构建句子库时,需要记录下每个公文句子所属的发文 机关信息。
[0038]例如,句子库是由句子、句子所属发文机关以及标签组成的集合,表 示为:
[0039][0040]其中,Text
i
为公文中可表达完整语义信息的句子,Agency
i
为句子所 属的发文机关,Label
i
为句子对应的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种公文自动写作方法,包括以下步骤:构建公文自动写作语料库,包括构建领域公文语料库、带标签的句子库和领域词典;用户根据写作内容确定公文中包含的模块,并设置各模块的字数限制范围;针对所确定的每个模块,执行:获取用户输入参数,所述输入参数包括公文的文种、主题词和发文机关;根据用户输入的主题词关联到相关领域的公文语料库,并在句子库中搜索符合当前模块的候选句子,得到候选句子集;根据主题关联度、领域词汇、陈述短语、句子所属发文机关以及句子连贯度中的多项特征,对候选句子进行评价并计算各项特征的得分,进而获得候选句子的特征值;利用基于公文语料库训练的权重计算模型,为候选句子的各项特征计算相应的权重值,并计算每个候选句子的总评分;选取评分高的候选句子插入当前模块中,并将被选中的句子从候选句子集中移除,直到当前模块字数达到用户设定的字数范围上限。2.根据权利要求1所述的方法,其特征在于,根据以下步骤构建所述公文自动写作语料库:按照公文涉及的不同领域将公文进行文本分类,建立各领域公文语料库;根据句子语义信息,为各领域公文语料库中的每个句子打标签,得到各领域的句子库;识别并提取出各领域公文语料库中的领域词汇,得到领域词典。3.根据权利要求2所述的方法,其特征在于,所述文本分类包括:构建文本数据集,该文本数据集包含多个样本,每个样本反映文本与类别之间对应关系;利用所述文本数据集训练分类器;将目标公文输入到经训练的分类器,获得该目标公文的类别。4.根据权利要求2所述的方法,其特征在于,所述句子库是由句子、句子所属发文机关以及标签组成的集合,表示为:其中,Text
i
是公文中表达完整语义信息的句子,Agency
i
是句子所属的发文机关,Label
i
是句子对应的标签。5.根据权利要求2所述的方法,其特征在于,根据以下步骤构建所述领域词典:以各领域的公文语料库作为数据集,该数据集的每条样本反映领域类别与领域词汇之间的对应关系;利用所述数据集训练深度学习模型;将目标领域输入到经训练的深度学习模型,获得对应的领域词汇,构建为领域词典。6.根据权利要求1所述的方法,其特征在于,通过以下步骤计算所述候选句子的特征值:基于语言模型计算所有候选句子与主题词的关联度;选择主题关联度得分最高的句子作为当前模块正文的第一个句子;
利用所构建的领域词典识别候选句子中...

【专利技术属性】
技术研发人员:施运梅李源华
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1