-
公开(公告)号:CN115640810A
公开(公告)日:2023-01-24
申请号:CN202211672053.9
申请日:2022-12-26
申请人: 国网湖北省电力有限公司信息通信公司 , 武汉大学
摘要: 本发明提供了一种电力系统通信敏感信息识别方法、系统及存储介质,所述识别方法包括设计HybridSIR模型,收集语料训练领域Bert,获得中文语料并对Bert进行训练,得到领域Bert,构造数据集,收集中文文本,将文本分割为句子,对每个句子标注其中的敏感信息;训练和测试模型,构造的数据集,按一定比例划分为训练集、验证集和测试集,加载到HybridSIR模型,依据公式定义的损失函数对模型进行训练和测试;电力系统通信敏感信息识别,将未进行敏感信息标记的电力通信中文文本输入已训练完成的模型,输出层的输出即为敏感信息标记结果,完成敏感信息的识别。本发明提高了电力通信文本敏感信息识别的准确性。
-
公开(公告)号:CN115204164B
公开(公告)日:2022-12-02
申请号:CN202211111205.8
申请日:2022-09-13
申请人: 国网湖北省电力有限公司信息通信公司 , 武汉大学
IPC分类号: G06F40/284 , G06F40/289 , G06F40/211 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08
摘要: 本申请涉及一种电力系统通信敏感信息识别方法、系统及存储介质,方法包括设计模型,模型的输入为文本;输出为文本对应的类别概率和敏感信息的BIO标记序列;构造数据集,收集一定规模的电力通信领域中的中文文本,将文本分割为句子,对每个句子标注其中的敏感信息,同时对每个句子标明其类别信息,构造出数据集;训练和测试模型,构造的数据集按比例划分训练集、验证集和测试集,加载到设计的模型上,依据设计的模型损失函数对数据集进行训练和测试;电力系统通信敏感信息识别,将未进行敏感信息标记的电力通信中文文本输入已训练和测试完成的模型,CRF层的输出即为敏感信息标记结果,完成敏感信息的识别。本申请提高敏感信息识别的准确度。
-
公开(公告)号:CN115204164A
公开(公告)日:2022-10-18
申请号:CN202211111205.8
申请日:2022-09-13
申请人: 国网湖北省电力有限公司信息通信公司 , 武汉大学
IPC分类号: G06F40/284 , G06F40/289 , G06F40/211 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08
摘要: 本申请涉及一种电力系统通信敏感信息识别方法、系统及存储介质,方法包括设计模型,模型的输入为文本;输出为文本对应的类别概率和敏感信息的BIO标记序列;构造数据集,收集一定规模的电力通信领域中的中文文本,将文本分割为句子,对每个句子标注其中的敏感信息,同时对每个句子标明其类别信息,构造出数据集;训练和测试模型,构造的数据集按比例划分训练集、验证集和测试集,加载到设计的模型上,依据设计的模型损失函数对数据集进行训练和测试;电力系统通信敏感信息识别,将未进行敏感信息标记的电力通信中文文本输入已训练和测试完成的模型,CRF层的输出即为敏感信息标记结果,完成敏感信息的识别。本申请提高敏感信息识别的准确度。
-
-