一种基于最大凝聚系数和边界熵的未登录词识别方法

    公开(公告)号:CN112199943B

    公开(公告)日:2023-10-03

    申请号:CN202011013194.0

    申请日:2020-09-24

    申请人: 东北大学

    摘要: 本发明提供了一种基于最大凝聚系数和边界熵的未登录词识别方法,其特征在于:包括以下步骤:预处理—参数计算—判断未登录词—未登录词保存至文件—未登录词添加;本发明中实验表明,本发明中所提出的算法准确率为66.67%相比于汪龙庆等在计算机应用与软件期刊中所发表的论文:基于未登录词识别的微博评价短语抽取方法中所提出的算法准确率为60.05%有较大程度的提高,提升了6.62个百分点,并且分别在未登录词识别的精确率、召回率和F1值也有所改善,推测结果提高的原因是左右邻接边界熵这两个参数对未登录词识别都有影响,但汪龙庆等的论文中中将左右邻接边界熵最小值设为一个参数,只是取其中最小值为影响未登录词识别算法的因素。

    一种基于最大凝聚系数和边界熵的未登录词识别方法

    公开(公告)号:CN112199943A

    公开(公告)日:2021-01-08

    申请号:CN202011013194.0

    申请日:2020-09-24

    申请人: 东北大学

    摘要: 本发明提供了一种基于最大凝聚系数和边界熵的未登录词识别方法,其特征在于:包括以下步骤:预处理—参数计算—判断未登录词—未登录词保存至文件—未登录词添加;本发明中实验表明,本发明中所提出的算法准确率为66.67%相比于汪龙庆等在计算机应用与软件期刊中所发表的论文:基于未登录词识别的微博评价短语抽取方法中所提出的算法准确率为60.05%有较大程度的提高,提升了6.62个百分点,并且分别在未登录词识别的精确率、召回率和F1值也有所改善,推测结果提高的原因是左右邻接边界熵这两个参数对未登录词识别都有影响,但汪龙庆等的论文中中将左右邻接边界熵最小值设为一个参数,只是取其中最小值为影响未登录词识别算法的因素。