-
公开(公告)号:CN115878803A
公开(公告)日:2023-03-31
申请号:CN202211682369.6
申请日:2022-12-26
Applicant: 国网四川省电力公司经济技术研究院
IPC: G06F16/35 , G06F16/33 , G06F40/284 , G06F40/242 , G06F40/247 , G06F18/241 , G06F18/2415 , G06N3/0464 , G06N3/047 , G06N3/08
Abstract: 本发明公开了一种敏感数据检测方法、系统、计算机终端及存储介质,涉及信息安全技术领域,其技术要点是:本发明通过抽取领域术语创建领域术语的词典,首先检测待检测文本数据的数据结构,在为结构化数据时,利用词表得到待检测文本数据的每个字的令牌,从而依据令牌来查询词典中所有可能领域术语的词集合,保证了术语的覆盖范围,利用BERT模型的embedding层将令牌转化为词向量编码序列,将词向量编码序列和字符的头、尾位置编码进行拼接得到BERT模型的输入向量,保证了文本地址的精准度,BERT模型基于输入向量得到输出向量,然后基于输出向量在卷积神经网络中的卷积学习,进而增强敏感术语的语义表征,以此,提高待检测文本数据中敏感信息的检测精度。
-
公开(公告)号:CN114154505A
公开(公告)日:2022-03-08
申请号:CN202111485849.9
申请日:2021-12-07
Applicant: 国网四川省电力公司经济技术研究院
IPC: G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种面向电力规划评审领域的命名实体识别方法,包括S1:根据样本语料数据集特征,设立多个刻画实体不同性质的实体标签,获得分词后的样本语料;S2:将分词后的样本语料加载到Glove模型以训练词向量,按位置拼接后得到文本序列向量矩阵;S3:利用多尺度卷积网络对文本序列向量矩阵卷积后重组池化,提取出序列中词粒度的词汇信息;S4:将以文本序列向量矩阵为输入的BiLSTM网络中前向LSTM和后向LSTM末尾状态进行拼接,提取出序列中句粒度的词缀信息;S5:利用Cross‑Transformer模块对序列中词粒度的词汇信息和序列中句粒度的词缀信息进行融合,最后通过CRF层完成命名实体识别。本发明在一定程度上提高了电力规划评审领域命名实体识别的效率。
-
公开(公告)号:CN114154505B
公开(公告)日:2024-07-16
申请号:CN202111485849.9
申请日:2021-12-07
Applicant: 国网四川省电力公司经济技术研究院
IPC: G06F40/295 , G06N3/0455 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种面向电力规划评审领域的命名实体识别方法,包括S1:根据样本语料数据集特征,设立多个刻画实体不同性质的实体标签,获得分词后的样本语料;S2:将分词后的样本语料加载到Glove模型以训练词向量,按位置拼接后得到文本序列向量矩阵;S3:利用多尺度卷积网络对文本序列向量矩阵卷积后重组池化,提取出序列中词粒度的词汇信息;S4:将以文本序列向量矩阵为输入的BiLSTM网络中前向LSTM和后向LSTM末尾状态进行拼接,提取出序列中句粒度的词缀信息;S5:利用Cross‑Transformer模块对序列中词粒度的词汇信息和序列中句粒度的词缀信息进行融合,最后通过CRF层完成命名实体识别。本发明在一定程度上提高了电力规划评审领域命名实体识别的效率。
-
公开(公告)号:CN114492395B
公开(公告)日:2024-07-12
申请号:CN202210111600.X
申请日:2022-01-29
Applicant: 国网四川省电力公司经济技术研究院
IPC: G06F40/216 , G06F40/30 , G06F16/36 , G06N5/022 , G06N3/0455 , G06N3/092
Abstract: 本发明公开了一种面向知识图谱的联合实体消歧方法及系统,系统包括实体指称项排序模块、复合特征学习模块、候选实体决策模块;其中,实体指称项排序模块:用于对所有实体指称项进行消歧难易程度排序,确定系统消歧顺序,得到消歧任务序列;复合特征学习模块:用于对消歧任务序列中的实体指称项依次进行特征学习,包括局部特征和全局特征,形成适合消歧任务的复合特征数据集;候选实体决策模块:根据复合特征学习模块得到的复合特征数据集,用于构建和训练动态实体消歧决策网络,并通过动态实体消歧决策网络得到消歧决策策略,进行实体指称项的动态实体消歧。
-
公开(公告)号:CN114492395A
公开(公告)日:2022-05-13
申请号:CN202210111600.X
申请日:2022-01-29
Applicant: 国网四川省电力公司经济技术研究院
IPC: G06F40/216 , G06F40/30 , G06F16/36 , G06N3/08 , G06N3/04
Abstract: 本发明公开了一种面向知识图谱的联合实体消歧方法及系统,系统包括实体指称项排序模块、复合特征学习模块、候选实体决策模块;其中,实体指称项排序模块:用于对所有实体指称项进行消歧难易程度排序,确定系统消歧顺序,得到消歧任务序列;复合特征学习模块:用于对消歧任务序列中的实体指称项依次进行特征学习,包括局部特征和全局特征,形成适合消歧任务的复合特征数据集;候选实体决策模块:根据复合特征学习模块得到的复合特征数据集,用于构建和训练动态实体消歧决策网络,并通过动态实体消歧决策网络得到消歧决策策略,进行实体指称项的动态实体消歧。
-
公开(公告)号:CN115983275A
公开(公告)日:2023-04-18
申请号:CN202211674277.3
申请日:2022-12-26
Applicant: 国网四川省电力公司经济技术研究院
IPC: G06F40/295 , G06F40/30 , G06N3/098
Abstract: 本发明公开了一种命名实体识别方法、系统及电子设备,涉及自然语言处理领域,解决了现有技术无法利用分布在不同客户端中的数据集进行命名实体识别模型的训练的问题,其技术方案要点是:提出全局模型和本地模型更新方式,其中全局模型部分负责捕获所标记的文本数据的语义信息,全局部分由所有客户端上注释良好的语料库训练。本地模型部分负责学习特定客户端所标记的上下文表示和标签解码策略,同时设计部分客户端的全局模型的分布参数上传至服务器的梯度聚合策略,避免了所有客户端进行分布参数传输会造成通信拥塞的问题,实现了跨客户端的命名实体识别,保护用户数据的安全和隐私。
-
-
-
-
-