-
公开(公告)号:CN116821338A
公开(公告)日:2023-09-29
申请号:CN202310734236.7
申请日:2023-06-20
申请人: 国网江苏省电力有限公司电力科学研究院 , 国网江苏省电力有限公司 , 江苏省电力试验研究院有限公司
IPC分类号: G06F16/35 , G06N3/045 , G06F18/213 , G06F18/2415
摘要: 本发明属于电力行政文本分类领域,公开了本发明提供了基于BERT的电力行政文本分类方法、装置、设备及存储介质,包括以下步骤:S1:历史电网文本数据经过数据预处理后,输入到词向量生成模型进行训练,并矢量化生成词向量;S2:将历史电网文本数据进行文本标注,矢量化生成文本标注向量;S3:将词向量和文本标注向量加载到预训练BERT模型中进行模型微调,并开展性能评价后,获得BERT模型;S4:将新接收的电网文本数据进行数据处理后生成词向量,并将词向量输入至BERT模型,得到分类标签得分,实现电力行政文本的分类。本发明可以科学有效地识别大量电力行政中的文本数据中的类别,大大提高文本分类效率,快速提取关键信息。
-
公开(公告)号:CN116029285A
公开(公告)日:2023-04-28
申请号:CN202211579802.3
申请日:2022-12-09
申请人: 国网江苏省电力有限公司电力科学研究院 , 国网江苏省电力有限公司 , 江苏省电力试验研究院有限公司
IPC分类号: G06F40/216 , G06F40/253 , G06F40/289
摘要: 本发明公开了一种基于改进词频统计方法的电文内容挖掘方法及装置,包括获取电网来文来电数据;将所述电网来文来电数据输入到预先构建的词向量表征模型进行训练,生成词向量;将所述电网来文来电数据采用预先改进过的词频统计方法进行计算,获得词汇权值;将所述对应词汇的词向量和词汇权值进行加权,得到加权词向量表示;通过对加权词向量的累加,得到加权文本的向量化表示,本发明以科学有效地挖掘大量电网中的来文来电中的价值以及分析复杂的语义关系。
-
公开(公告)号:CN116522938A
公开(公告)日:2023-08-01
申请号:CN202310450305.1
申请日:2023-04-24
申请人: 国网江苏省电力有限公司电力科学研究院 , 国网江苏省电力有限公司 , 江苏省电力试验研究院有限公司
IPC分类号: G06F40/295 , G06F40/216 , G06F40/284 , G06N3/0442 , G06N3/045 , G06N3/047 , G06N3/048
摘要: 本发明公开了一种电力行政命名实体的识别方法、装置及计算机设备。本发明通过获取电网文本数据,将电网文本数据输入到词向量生成模型,以通过词向量生成模型将电网文本数据转化为词向量,将词向量输入到双向长短时记忆模型进行计算,得到词向量对应的初步标签,将词向量对应的初步标签输入到条件随机层进行校正,得到词向量对应的最终标签,并作为命名实体识别结果,能够科学有效地识别大量电网文本数据中的命名实体。
-
-