一种电力二次工作安全措施票文本向量化方法及相关装置
摘要:
本发明公开了一种电力二次工作安全措施票文本向量化方法及相关装置,方法包括:获取目标二次工作安全措施票;利用预训练好的分词模型将目标二次工作安全措施票中的文本进行分词,得到分词结果;其中所述分词模型采用ELECTRA模型构建而成;基于所述分词结果,统计所有文本中出现的词汇的词频,并基于词频构建词汇表;其中所述词汇表表示为词汇的索引系统,每个词汇对应一个唯一的索引;利用预训练的词嵌入模型为词汇表中的每个词汇生成相应的词嵌入向量;其中所有词嵌入向量均为一个固定长度;基于构建的词汇表,将目标二次工作安全措施票中目标文本的每个词汇转换为对应的索引,并根据索引替换为相应的词嵌入向量,得到目标文本的向量序列。
0/0