汉语词法分析方法
摘要:
本发明是一种汉语词法分析方法,包括以下步骤:1)从一给定的训练语料中获得特征函数和权重;2)切分输入的汉语文本:将输入的汉语文本切分为多个语句,一个语句为一个字序列;3)计算输入的汉语文本对应的字序列的所有可能的词法信息标记序列的条件概率;4)确定输入的汉语文本对应的字序列的最终的词法信息标记序列;5)进行汉语分词、汉语词性标注和汉语命名实体识别,从而获得最终的汉语词法分析结果。本发明将汉语词法分析的三项子任务统一到字序列标注框架中实现,克服了错误向上传递放大累加,多类信息难以整合利用的不足,计算简单、运算量小;完全脱离词典,对未登录词语也能较好的切分和标注。
公开/授权文献
0/0