-
公开(公告)号:CN111090755A
公开(公告)日:2020-05-01
申请号:CN201911197172.1
申请日:2019-11-29
申请人: 福建亿榕信息技术有限公司 , 国网信息通信产业集团有限公司 , 国网北京市电力公司 , 国家电网有限公司大数据中心 , 国网福建省电力有限公司 , 国家电网有限公司 , 国网信通亿力科技有限责任公司
IPC分类号: G06F16/36 , G06F16/33 , G06F16/383 , G06F40/289 , G06Q50/06
摘要: 一种文本关联关系判别方法及存储介质,其中方法包括如下步骤,对输入的语料进行预处理,得到预处理文本,对预处理文本中的文本字段进行判断是否为超短文本,对其中的超短文本根据行业知识图谱进行改写,得到改写文本,将改写文本输入BERT模型进行训练、分析,得到模型输出的关联关系判别结果。本发明可以结合超短文本改写技术进行短文本关联关系判断的方法。对比已有方案具有语义理解能力强、文本长度影响小、相关性判断准确率高的有益效果,综上所述,本发明解决了现有技术中对行业文本相关性的判断仍然不够准确的问题。
-
公开(公告)号:CN111090755B
公开(公告)日:2023-04-04
申请号:CN201911197172.1
申请日:2019-11-29
申请人: 福建亿榕信息技术有限公司 , 国网信息通信产业集团有限公司 , 国网北京市电力公司 , 国家电网有限公司大数据中心 , 国网福建省电力有限公司 , 国家电网有限公司 , 国网信通亿力科技有限责任公司
IPC分类号: G06F16/36 , G06F16/33 , G06F16/383 , G06F40/289 , G06Q50/06
摘要: 一种文本关联关系判别方法及存储介质,其中方法包括如下步骤,对输入的语料进行预处理,得到预处理文本,对预处理文本中的文本字段进行判断是否为超短文本,对其中的超短文本根据行业知识图谱进行改写,得到改写文本,将改写文本输入BERT模型进行训练、分析,得到模型输出的关联关系判别结果。本发明可以结合超短文本改写技术进行短文本关联关系判断的方法。对比已有方案具有语义理解能力强、文本长度影响小、相关性判断准确率高的有益效果,综上所述,本发明解决了现有技术中对行业文本相关性的判断仍然不够准确的问题。
-
公开(公告)号:CN111325019A
公开(公告)日:2020-06-23
申请号:CN202010072472.3
申请日:2020-01-21
申请人: 国网北京市电力公司 , 国家电网有限公司 , 福建亿榕信息技术有限公司
IPC分类号: G06F40/242 , G06F40/109 , G06F16/332
摘要: 本发明公开了一种词库的更新方法及装置、电子设备。其中,该方法包括:获取审计新语料,其中,审计新语料中包括:审计基础词和电力资料语句;对审计新语料进行标注处理,得到基础样本数据;采用新词检索模型识别基础样本数据中的新词,其中,新词检索模型是基于多组数据训练得到的,多组数据中的每组数据包括:词库词语和新词预测概率;基于新词更新审计资料词库。本发明解决了相关技术中提取语料时容易遗漏专业术语,导致术语资料库的数据质量不均衡、数据不全面的技术问题。
-
公开(公告)号:CN112632985A
公开(公告)日:2021-04-09
申请号:CN202011507899.8
申请日:2020-12-18
申请人: 国网北京市电力公司 , 国家电网有限公司 , 福建亿榕信息技术有限公司
IPC分类号: G06F40/289 , G06N3/04 , G06N3/08
摘要: 本发明公开了一种语料的处理方法、装置、存储介质及处理器。其中,该方法包括:获取待识别的词句;采用新词发现模型处理词句,识别出至少一个候选语料,其中,新词发现模型为采用深度学习模型训练得到的语料模型;从至少一个候选语料中确定目标语料,其中,目标语料为从词句中识别出来的新词汇。本发明解决了现有技术中获取术语过程效率低的技术问题。
-
-
-