发明公开
- 专利标题: 一种电力二次工作安全措施票文本向量化方法及相关装置
-
申请号: CN202410240214.X申请日: 2024-03-04
-
公开(公告)号: CN117993385A公开(公告)日: 2024-05-07
- 发明人: 李萍 , 李佑伟 , 朱鹏宇 , 王业 , 黄翔 , 任旭超 , 高云云 , 华梦
- 申请人: 国网江苏省电力有限公司淮安供电分公司 , 国网江苏省电力有限公司
- 申请人地址: 江苏省淮安市淮海南路134号;
- 专利权人: 国网江苏省电力有限公司淮安供电分公司,国网江苏省电力有限公司
- 当前专利权人: 国网江苏省电力有限公司淮安供电分公司,国网江苏省电力有限公司
- 当前专利权人地址: 江苏省淮安市淮海南路134号;
- 代理机构: 南京卓灏知识产权代理事务所
- 代理商 季锐
- 主分类号: G06F40/289
- IPC分类号: G06F40/289 ; G06F40/216 ; G06F40/268 ; G06F40/242 ; G06Q10/20 ; G06Q50/06 ; G06N20/00
摘要:
本发明公开了一种电力二次工作安全措施票文本向量化方法及相关装置,方法包括:获取目标二次工作安全措施票;利用预训练好的分词模型将目标二次工作安全措施票中的文本进行分词,得到分词结果;其中所述分词模型采用ELECTRA模型构建而成;基于所述分词结果,统计所有文本中出现的词汇的词频,并基于词频构建词汇表;其中所述词汇表表示为词汇的索引系统,每个词汇对应一个唯一的索引;利用预训练的词嵌入模型为词汇表中的每个词汇生成相应的词嵌入向量;其中所有词嵌入向量均为一个固定长度;基于构建的词汇表,将目标二次工作安全措施票中目标文本的每个词汇转换为对应的索引,并根据索引替换为相应的词嵌入向量,得到目标文本的向量序列。