-
公开(公告)号:CN117744661A
公开(公告)日:2024-03-22
申请号:CN202410193318.X
申请日:2024-02-21
IPC分类号: G06F40/295 , G06F40/284 , G06F18/214 , G06F16/35
摘要: 本申请实施例公开了一种基于提示词工程的文本生成模型训练方法和文本生成方法,涉及大语言模型技术领域,包括:获取文本数据集;确定文本数据集中每个文本数据的公文种类;针对每一种类型的文本数据,按照对应的标注维度进行标注;构建第一模型,包括多种语言模型和特定任务层;使用标注好的文本数据对第一模型进行训练;评估每种语言模型的输出结果,选择每种类型的文本数据对应的语言模型,得到训练好的文本生成模型。通过选择具有明显各类公文特征的数据,并根据公文类型,对特定的内容特点、类型标志、涵盖要素等能够区分公文类型的特征进行标注,使模型能够学习电子公文领域的特定语言风格、词汇、句式和模板,以输出精确严谨的公文文本。
-
公开(公告)号:CN117744633B
公开(公告)日:2024-08-27
申请号:CN202410193183.7
申请日:2024-02-21
发明人: 朱韦桥 , 刘承亮 , 张轩铭 , 王伟萌 , 张向阳 , 马龙 , 樊春雷 , 刘帅龙 , 李健 , 刘辰 , 麻磊 , 惠伟 , 孙晶 , 解辰辉 , 曲左阳 , 杨扬 , 王喆 , 常灿 , 蔡宇晶 , 蒲照欣
IPC分类号: G06F40/232 , G06F40/226 , G06F18/214 , G06N3/0455 , G06N3/08
摘要: 本申请实施例涉及大模型技术领域,具体公开了一种文本纠错方法、装置及电子设备,方法包括:获取预训练大模型;获取公文数据集;根据标点符号对公文数据集进行切分;使用切分后的公文数据集基于低秩适配器方法LoRA对预训练大模型进行微调,得到文本纠错模型;将待纠错文本输入文本纠错模型,得到纠错后的文本;将纠错后的文本与待纠错文本比较,得到纠错位置和错误文本;对纠错后的文本进行校正,输出目标文本。通过LoRA能够减少内存占用,简化计算需求,加速了大模型的训练和微调过程,同时对硬件要求较低。基于生成式大模型能够根据上下文信息进行纠错,处理语法、语义等多种类型的错误,全面地考虑句子的结构和含义,更好地纠正不同层次的错误。
-
公开(公告)号:CN117744661B
公开(公告)日:2024-05-17
申请号:CN202410193318.X
申请日:2024-02-21
IPC分类号: G06F40/295 , G06F40/284 , G06F18/214 , G06F16/35
摘要: 本申请实施例公开了一种基于提示词工程的文本生成模型训练方法和文本生成方法,涉及大语言模型技术领域,包括:获取文本数据集;确定文本数据集中每个文本数据的公文种类;针对每一种类型的文本数据,按照对应的标注维度进行标注;构建第一模型,包括多种语言模型和特定任务层;使用标注好的文本数据对第一模型进行训练;评估每种语言模型的输出结果,选择每种类型的文本数据对应的语言模型,得到训练好的文本生成模型。通过选择具有明显各类公文特征的数据,并根据公文类型,对特定的内容特点、类型标志、涵盖要素等能够区分公文类型的特征进行标注,使模型能够学习电子公文领域的特定语言风格、词汇、句式和模板,以输出精确严谨的公文文本。
-
公开(公告)号:CN117786013A
公开(公告)日:2024-03-29
申请号:CN202410041274.9
申请日:2024-01-11
发明人: 王伟萌 , 刘承亮 , 朱韦桥 , 张轩铭 , 张向阳 , 曲左阳 , 樊春雷 , 马龙 , 刘帅龙 , 李健 , 刘辰 , 惠伟 , 孙晶 , 麻磊 , 解辰辉 , 王喆 , 杨扬 , 蔡宇晶 , 蒲照欣
IPC分类号: G06F16/27 , G06F16/242 , G06F16/2452 , G06F16/25 , G06F16/28
摘要: 本申请实施例公开了一种异构数据库的数据同步方法、装置及设备,涉及数据库技术领域,具体包括:接收用户输入的数据库语句,所述数据库语句符合源数据库的语法结构;对所述数据库语句进行翻译和逻辑转换,得到转换后的数据库语句,所述转换后的数据库语句符合目标数据库的语法结构;将所述转换后的数据库语句写入目标数据库;将所述数据库语句写入源数据库。通过处理引擎将用户输入的数据库语句从源数据库的语法结构转换为目标数据库能够识别的语法结构,并分别将对应的语句双写至两个数据库中,实现两端数据一致。通过异步写入的方式减少对数据库系统性能的影响,提供更好的数据一致性和性能。
-
公开(公告)号:CN117744633A
公开(公告)日:2024-03-22
申请号:CN202410193183.7
申请日:2024-02-21
发明人: 朱韦桥 , 刘承亮 , 张轩铭 , 王伟萌 , 张向阳 , 马龙 , 樊春雷 , 刘帅龙 , 李健 , 刘辰 , 麻磊 , 惠伟 , 孙晶 , 解辰辉 , 曲左阳 , 杨扬 , 王喆 , 常灿 , 蔡宇晶 , 蒲照欣
IPC分类号: G06F40/232 , G06F40/226 , G06F18/214 , G06N3/0455 , G06N3/08
摘要: 本申请实施例涉及大模型技术领域,具体公开了一种文本纠错方法、装置及电子设备,方法包括:获取预训练大模型;获取公文数据集;根据标点符号对公文数据集进行切分;使用切分后的公文数据集基于低秩适配器方法LoRA对预训练大模型进行微调,得到文本纠错模型;将待纠错文本输入文本纠错模型,得到纠错后的文本;将纠错后的文本与待纠错文本比较,得到纠错位置和错误文本;对纠错后的文本进行校正,输出目标文本。通过LoRA能够减少内存占用,简化计算需求,加速了大模型的训练和微调过程,同时对硬件要求较低。基于生成式大模型能够根据上下文信息进行纠错,处理语法、语义等多种类型的错误,全面地考虑句子的结构和含义,更好地纠正不同层次的错误。
-
公开(公告)号:CN111209472B
公开(公告)日:2023-08-18
申请号:CN201911350760.4
申请日:2019-12-24
IPC分类号: G06F16/9535 , G06F16/9536
摘要: 本发明实施例提供一种铁路事故故障关联和事故故障原因分析方法及系统,该方法包括:构建铁路事故故障知识图谱;基于铁路事故故障知识图谱,对所有的事故故障名称以及所有的事故故障原因进行名称归一化后,进行统一编码,获取事故故障及原因编号表;将事故故障及原因编号表输入至协同过滤分析模型,生成原因相似度矩阵;基于原因相似度矩阵,获取与每个事故故障名称相对应的最可能事故故障原因推荐;将事故故障及原因编号表输入至协同过滤分析模型,生成事故故障相似度矩阵;并基于事故故障相似度矩阵,获取每个事故故障原因导致的事故故障集合。本实施例通过融合知识图谱与推荐算法,提高了事故故障关联与原因分析的精准度,加强了铁路安全运行的保障。
-
公开(公告)号:CN111209472A
公开(公告)日:2020-05-29
申请号:CN201911350760.4
申请日:2019-12-24
IPC分类号: G06F16/9535 , G06F16/9536
摘要: 本发明实施例提供一种铁路事故故障关联和事故故障原因分析方法及系统,该方法包括:构建铁路事故故障知识图谱;基于铁路事故故障知识图谱,对所有的事故故障名称以及所有的事故故障原因进行名称归一化后,进行统一编码,获取事故故障及原因编号表;将事故故障及原因编号表输入至协同过滤分析模型,生成原因相似度矩阵;基于原因相似度矩阵,获取与每个事故故障名称相对应的最可能事故故障原因推荐;将事故故障及原因编号表输入至协同过滤分析模型,生成事故故障相似度矩阵;并基于事故故障相似度矩阵,获取每个事故故障原因导致的事故故障集合。本实施例通过融合知识图谱与推荐算法,提高了事故故障关联与原因分析的精准度,加强了铁路安全运行的保障。
-
公开(公告)号:CN111191452A
公开(公告)日:2020-05-22
申请号:CN201911350774.6
申请日:2019-12-24
IPC分类号: G06F40/295 , G06F40/211 , G06F40/30 , G06F16/35 , G06K9/62 , G06N3/04 , G06N3/08
摘要: 本发明实施例提供一种铁路文本命名实体识别方法及装置,该方法包括:对原始铁路文本数据进行预处理,得到预处理铁路文本数据信息;将预处理铁路文本数据信息输入预设BERT模型,得到铁路文本向量信息;将铁路文本向量信息输入预设BiLSTM-CRF模型,得到铁路文本命名实体识别结果信息;其中,BERT实现文本上下文的铁路文本特征向量学习,获得铁路行业事故故障文本向量表示。通过利用预设BERT增强故障文本命名实体关键字的向量和语义表示,通过BiLSTM-CRF模型,实现对于故障文本向量的计算和识别,得到铁路文本命名实体识别结果信息。
-
公开(公告)号:CN113590746B
公开(公告)日:2024-08-20
申请号:CN202110744498.2
申请日:2021-07-01
IPC分类号: G06F16/33 , G06F16/332 , G06F16/387 , G06F40/247
摘要: 本发明提供了一种数据仓库全面检索信息的方法、装置、设备和介质,其中,该方法包括:将输入的检索信息与主数据属性文本进行匹配,得到与检索信息相匹配的目标信息;其中,主数据属性文本是根据主数据属性信息的历史变更记录建立的数据链路;将目标信息作为检索信息输入数据仓库进行检索,得到检索结果。根据主数据属性信息的历史变更记录建立的数据链路,将汇集至数据服务平台的数据与主数据关联,使主数据生命周期中的多个版本数据可以被有效利用,根据数据链路得到目标信息,将目标信息作为检索信息进行检索,使检索全面而高效。
-
公开(公告)号:CN113590746A
公开(公告)日:2021-11-02
申请号:CN202110744498.2
申请日:2021-07-01
IPC分类号: G06F16/33 , G06F16/332 , G06F16/387 , G06F40/247
摘要: 本发明提供了一种数据仓库全面检索信息的方法、装置、设备和介质,其中,该方法包括:将输入的检索信息与主数据属性文本进行匹配,得到与检索信息相匹配的目标信息;其中,主数据属性文本是根据主数据属性信息的历史变更记录建立的数据链路;将目标信息作为检索信息输入数据仓库进行检索,得到检索结果。根据主数据属性信息的历史变更记录建立的数据链路,将汇集至数据服务平台的数据与主数据关联,使主数据生命周期中的多个版本数据可以被有效利用,根据数据链路得到目标信息,将目标信息作为检索信息进行检索,使检索全面而高效。
-
-
-
-
-
-
-
-
-