- 专利标题: 一种基于神经网络概率消歧的网络文本命名实体识别方法
-
申请号: CN201710390409.2申请日: 2017-05-27
-
公开(公告)号: CN107203511B公开(公告)日: 2020-07-17
- 发明人: 周勇 , 刘兵 , 韩兆宇 , 王重秋
- 申请人: 中国矿业大学
- 申请人地址: 江苏省徐州市铜山区大学路中国矿业大学科研院
- 专利权人: 中国矿业大学
- 当前专利权人: 中国矿业大学
- 当前专利权人地址: 江苏省徐州市铜山区大学路中国矿业大学科研院
- 代理机构: 南京瑞弘专利商标事务所
- 代理商 彭雄
- 主分类号: G06F40/295
- IPC分类号: G06F40/295 ; G06F40/289 ; G06N3/08
摘要:
本发明公开了一种基于神经网络概率消歧的网络文本命名实体识别方法,将无标签语料分词,利用Word2Vec提取词向量,将样本语料转换成词特征矩阵并窗口化,构建深度神经网络进行训练,在神经网络的输出层加入softmax函数做归一化处理,得到每个词对应命名实体类别的概率矩阵;将概率矩阵重新窗口化,利用条件随机场模型进行消歧,得到最后的命名实体标注。本发明根据其存在网络词汇、新生词汇的特性,提供了一种不改变神经网络结构的词向量增量学习方法,为应对网络文本中语法结构不规范、错别字多的问题,采用了概率消歧的方法。因此本发明的方法在网络文本命名实体识别任务中可产生较高的准确率。
公开/授权文献
- CN107203511A 一种基于神经网络概率消歧的网络文本命名实体识别方法 公开/授权日:2017-09-26