基于统计模型的Web命名实体识别方法
摘要:
本发明是一种基于统计模型的Web命名实体识别方法,用结构和文本特征对Web命名实体进行多特征表示;本发明将统计方法和规则方法相结合,采用改进的MR-GHMM来优化训练的效率;用改进隐马尔可夫的模型对实体进行标注,对各命名实体标注,实现实体识别;对Web复杂命名实体识别过程作为二层来处理,将第一层的标注结果作为第二层处理的输入进行复杂嵌套实体识别。本发明与原有识别算法相比,该算法的识别准确率提高了,模型训练的时间复杂度也大幅降低。通过对Web命名实体的多特征表示,针对不同领域的实体特征进行修改,就可以应用与Web上不同领域的命名实体进行识别。
0/0