-
公开(公告)号:CN118690722A
公开(公告)日:2024-09-24
申请号:CN202411034130.7
申请日:2024-07-30
申请人: 山东政通科技发展有限公司
IPC分类号: G06F40/109 , G06F40/12 , G06F40/30 , G06F40/279 , G06F40/242 , G06F40/284 , G06F40/211 , G06N20/00
摘要: 本发明公开了一种公文自动格式化方法及系统,涉及人工智能技术领域,包括以下步骤:输入用于识别和排版的公文;对输入的所述公文数据进行预处理;对输入的所述公文数据的要素进行识别;将所述训练库中的数据进行预处理后输入至HMM的分词模型进行分词,并输出分词标签;将所述训练库中每一个分词的所述分词标签、字和词转换为向量输入至语言大模型中,对其进行迭代训练;将bert模型输出向量输入至所述语言大模型中得到语义完整的分词向量,基于所述语义完整的分词向量以及合适的分割规则对不同要素的公文段落进行分割;根据每行的字数上限对所述分割后的公文数据进行划行,继而得到语义完整的公文排版,从而有利于工作效率的提高和政令的畅通。
-
公开(公告)号:CN115795028B
公开(公告)日:2023-07-18
申请号:CN202310083938.3
申请日:2023-02-09
申请人: 山东政通科技发展有限公司
IPC分类号: G06F16/34
摘要: 本发明属于基于特定计算模型的计算机系统领域,提供了一种公文智能生成方法及系统。该方法包括,获取需要生成的公文种类和需要生成的所有主题;基于需要生成的公文种类和需要生成的第一主题,采用训练好的GPT2_Chinese模型,生成第一阶段文本;基于第一阶段文本,采用textRank算法,提取第一阶段文本概要;基于需要生成的公文种类、需要生成的第K主题和第K‑1阶段文本概要,采用训练好的GPT2_Chinese模型,生成第K阶段文本;基于第K阶段文本,采用textRank算法,提取第K阶段文本概要;重复文本生成和概要提取的过程,直到生成最后阶段的文本;将所有阶段的文本进行拼接,生成公文。
-
公开(公告)号:CN115795028A
公开(公告)日:2023-03-14
申请号:CN202310083938.3
申请日:2023-02-09
申请人: 山东政通科技发展有限公司
IPC分类号: G06F16/34
摘要: 本发明属于基于特定计算模型的计算机系统领域,提供了一种公文智能生成方法及系统。该方法包括,获取需要生成的公文种类和需要生成的所有主题;基于需要生成的公文种类和需要生成的第一主题,采用训练好的GPT2_Chinese模型,生成第一阶段文本;基于第一阶段文本,采用textRank算法,提取第一阶段文本概要;基于需要生成的公文种类、需要生成的第K主题和第K‑1阶段文本概要,采用训练好的GPT2_Chinese模型,生成第K阶段文本;基于第K阶段文本,采用textRank算法,提取第K阶段文本概要;重复文本生成和概要提取的过程,直到生成最后阶段的文本;将所有阶段的文本进行拼接,生成公文。
-
-