一种基于神经网络概率消歧的网络文本命名实体识别方法

发明授权

CN107203511B 一种基于神经网络概率消歧的网络文本命名实体识别方法有权

请登陆查看更多内容

专利标题： 一种基于神经网络概率消歧的网络文本命名实体识别方法
申请号： CN201710390409.2

申请日： 2017-05-27
公开(公告)号： CN107203511B

公开(公告)日： 2020-07-17
发明人: 周勇 , 刘兵 , 韩兆宇 , 王重秋
申请人： 中国矿业大学
申请人地址： 江苏省徐州市铜山区大学路中国矿业大学科研院
专利权人： 中国矿业大学
当前专利权人： 中国矿业大学
当前专利权人地址： 江苏省徐州市铜山区大学路中国矿业大学科研院
代理机构： 南京瑞弘专利商标事务所
代理商 彭雄
主分类号： G06F40/295
IPC分类号： G06F40/295 ; G06F40/289 ; G06N3/08

摘要：

本发明公开了一种基于神经网络概率消歧的网络文本命名实体识别方法，将无标签语料分词，利用Word2Vec提取词向量，将样本语料转换成词特征矩阵并窗口化，构建深度神经网络进行训练，在神经网络的输出层加入softmax函数做归一化处理，得到每个词对应命名实体类别的概率矩阵；将概率矩阵重新窗口化，利用条件随机场模型进行消歧，得到最后的命名实体标注。本发明根据其存在网络词汇、新生词汇的特性，提供了一种不改变神经网络结构的词向量增量学习方法，为应对网络文本中语法结构不规范、错别字多的问题，采用了概率消歧的方法。因此本发明的方法在网络文本命名实体识别任务中可产生较高的准确率。

公开/授权文献

CN107203511A 一种基于神经网络概率消歧的网络文本命名实体识别方法公开/授权日：2017-09-26

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F40/00	处理自然语言数据（语音分析或综合，语音识别G10L）
G06F40/20	.自然语言分析（自然语言的语义分析入G06F40/30）
G06F40/279	..文字实体的识别
G06F40/289	...短语分析，例如有限状态技术或分块
G06F40/295	....命名实体识别