发明授权
- 专利标题: 一种中文分词方法、装置及存储介质
-
申请号: CN202010095159.1申请日: 2020-02-14
-
公开(公告)号: CN111209751B公开(公告)日: 2023-07-28
- 发明人: 宋博川 , 张强 , 柴博 , 贾全烨 , 戴铁潮
- 申请人: 全球能源互联网研究院有限公司 , 国家电网有限公司 , 国网浙江省电力有限公司
- 申请人地址: 北京市昌平区未来科技城滨河大道18号; ;
- 专利权人: 全球能源互联网研究院有限公司,国家电网有限公司,国网浙江省电力有限公司
- 当前专利权人: 全球能源互联网研究院有限公司,国家电网有限公司,国网浙江省电力有限公司
- 当前专利权人地址: 北京市昌平区未来科技城滨河大道18号; ;
- 代理机构: 北京三聚阳光知识产权代理有限公司
- 代理商 韩罗琳
- 主分类号: G06F40/289
- IPC分类号: G06F40/289 ; G06F40/211 ; G06F40/216 ; G06N3/0442 ; G06N3/08
摘要:
本发明提供了一种中文分词方法、装置及存储介质,其中,方法包括:获取文本对应的每一个字的字向量;将每一个字向量输入到长短期记忆网络模型的投射层,得到投射层输出的所述字向量隶属于每一个目标类别的初始概率;获取目标领域词库对应的文本向量;将字向量隶属于每一个目标类别的初始概率和文本向量输入到长短期记忆网络模型的条件随机场层;根据文本向量,对字向量隶属于每一个目标类别的初始概率进行调整,得到标签序列;根据标签序列,得到文本的分词序列。通过实施本发明,利用长短期记忆网络模型和目标领域词库对字向量隶属于每一个目标类别的初始概率进行计算与调整,得到中文分词序列,提高了分词结果的准确性。
公开/授权文献
- CN111209751A 一种中文分词方法、装置及存储介质 公开/授权日:2020-05-29