一种短文本实体消歧方法

    公开(公告)号:CN112906397B

    公开(公告)日:2021-11-19

    申请号:CN202110366911.6

    申请日:2021-04-06

    申请人: 南通大学

    IPC分类号: G06F40/295 G06F16/35 G06N3/04

    摘要: 本发明提供一种基于深度学习的短文本实体消歧方法,主要用于解决语句中的实体在不同的短文本中存在含义不同指向的问题,包括如下步骤:步骤1、使用jieba分词技术对语句进行分词,找出待消歧实体,并且使用上市公司实体及其缩写作为词典;步骤2、对句子以待消歧实体为中心,32字大小进行切分;步骤3、将含有待消歧实体的语句转换为Bidirectional Encoder Representation from Transformers(BERT)词向量模型;步骤4、将词向量模型分批次放入到Long‑Short Term Memory RNN(LSTM)模型中,通过交叉熵进行损失函数计算,不断优化参数,获得最终模型。本发明不仅可以在特殊领域如公司实体上取得很好的结果,也可以在一般领域取得不错的结果。

    一种短文本实体消歧方法

    公开(公告)号:CN112906397A

    公开(公告)日:2021-06-04

    申请号:CN202110366911.6

    申请日:2021-04-06

    申请人: 南通大学

    IPC分类号: G06F40/295 G06F16/35 G06N3/04

    摘要: 本发明提供一种基于深度学习的短文本实体消歧方法,主要用于解决语句中的实体在不同的短文本中存在含义不同指向的问题,包括如下步骤:步骤1、使用jieba分词技术对语句进行分词,找出待消歧实体,并且使用上市公司实体及其缩写作为词典;步骤2、对句子以待消歧实体为中心,32字大小进行切分;步骤3、将含有待消歧实体的语句转换为Bidirectional Encoder Representation from Transformers(BERT)词向量模型;步骤4、将词向量模型分批次放入到Long‑Short Term Memory RNN(LSTM)模型中,通过交叉熵进行损失函数计算,不断优化参数,获得最终模型。本发明不仅可以在特殊领域如公司实体上取得很好的结果,也可以在一般领域取得不错的结果。