-
公开(公告)号:CN115658866B
公开(公告)日:2024-03-12
申请号:CN202211325908.0
申请日:2022-10-27
Applicant: 国网山东省电力公司烟台供电公司
IPC: G06F16/332 , G06F40/30 , G06F40/289 , G06N20/00
Abstract: 本发明提供一种可自适应输入的文本续写方法、存储介质和装置,其中方法包括:对训练用文本进行预处理,调整成文本续写模型可接收的格式;将经过预处理的训练用文本输入文本续写模型,根据输出对模型参数进行调整,得到训练好的模型;将待续写文本输入所述训练后的模型,进行主题相似性度量,根据待续写文本主题微调文本,包括保留待续写文本中与最后一个主题相关的内容,删除与最后一个主题无关的内容;将微调后的文本输入所述训练好的模型,进行文本续写。实施本发明,多主题输入在经过主题相似性度量模块后,输入由多主题转换为单一主题,进而输出也只与该单一主题相关,解决了多主题文本续写语义混乱的问题。
-
公开(公告)号:CN115688703B
公开(公告)日:2024-03-12
申请号:CN202211342299.X
申请日:2022-10-31
Applicant: 国网山东省电力公司烟台供电公司
IPC: G06F40/166 , G06F40/289 , G06F40/211 , G06F40/30 , G06N20/00
Abstract: 本发明公开一种特定领域文本的纠错方法、存储介质和装置,其中方法包括:构造特定领域训练用数据集;使用通用领域数据集对文本生成模型进行第一阶段训练;对文本生成模型通过加入词性监督信号进行改造,然后利用特定领域训练用数据集对改造后的文本生成模型进行第二阶段训练;对训练后的文本生成模型进行句子级纠错,并解码生成矫正后的文本。本发明无需人工标注标签,可以根据现有数据自动生成标签;能够继承通用领域常用的语法特点与先验知识;能够针对特定领域特别是电力领域做出适配性纠正,能够识别特定领域内的特有名词与常用术语;能够结合句子的词性组合特征来进行纠错。
-
公开(公告)号:CN115658866A
公开(公告)日:2023-01-31
申请号:CN202211325908.0
申请日:2022-10-27
Applicant: 国网山东省电力公司烟台供电公司 , 国家电网有限公司
IPC: G06F16/332 , G06F40/30 , G06F40/289 , G06N20/00
Abstract: 本发明提供一种可自适应输入的文本续写方法、存储介质和装置,其中方法包括:对训练用文本进行预处理,调整成文本续写模型可接收的格式;将经过预处理的训练用文本输入文本续写模型,根据输出对模型参数进行调整,得到训练好的模型;将待续写文本输入所述训练后的模型,进行主题相似性度量,根据待续写文本主题微调文本,包括保留待续写文本中与最后一个主题相关的内容,删除与最后一个主题无关的内容;将微调后的文本输入所述训练好的模型,进行文本续写。实施本发明,多主题输入在经过主题相似性度量模块后,输入由多主题转换为单一主题,进而输出也只与该单一主题相关,解决了多主题文本续写语义混乱的问题。
-
公开(公告)号:CN115688703A
公开(公告)日:2023-02-03
申请号:CN202211342299.X
申请日:2022-10-31
Applicant: 国网山东省电力公司烟台供电公司 , 国家电网有限公司
IPC: G06F40/166 , G06F40/289 , G06F40/211 , G06F40/30 , G06N20/00
Abstract: 本发明公开一种特定领域文本的纠错方法、存储介质和装置,其中方法包括:构造特定领域训练用数据集;使用通用领域数据集对文本生成模型进行第一阶段训练;对文本生成模型通过加入词性监督信号进行改造,然后利用特定领域训练用数据集对改造后的文本生成模型进行第二阶段训练;对训练后的文本生成模型进行句子级纠错,并解码生成矫正后的文本。本发明无需人工标注标签,可以根据现有数据自动生成标签;能够继承通用领域常用的语法特点与先验知识;能够针对特定领域特别是电力领域做出适配性纠正,能够识别特定领域内的特有名词与常用术语;能够结合句子的词性组合特征来进行纠错。
-
-
-