一种结合文档关键信息的句子级中文事件检测的方法

    公开(公告)号:CN113505200A

    公开(公告)日:2021-10-15

    申请号:CN202110801337.2

    申请日:2021-07-15

    申请人: 河海大学

    摘要: 本发明公开了一种结合文档关键信息的句子级中文事件检测的方法,属于自然语言处理中文本信息抽取技术领域,包括:对数据进行BIO序列标注;获取句子所在文档中关键句子;获取文档关键句子向量表示和待检测的句子中字符向量表示;将待检测句子中字符向量表示和文档关键句子向量结合;建立事件触发词抽取模型。首先,使用BIO标注方法对中文句子中每个字符进行标注。其次,使用TextRank算法获取文档中关键句子。然后,使用BERT中文预训练模型对关键句产生文档向量表示,以及对句子中每个字符产生向量表示。最后,使用神经网络模型对句子中触发词进行抽取。本发明通过结合文档中关键信息来获取文档主题,弥补句子内信息缺乏,以此提高对触发词识别准确率。

    一种结合文档关键信息的句子级中文事件检测的方法

    公开(公告)号:CN113505200B

    公开(公告)日:2023-11-24

    申请号:CN202110801337.2

    申请日:2021-07-15

    申请人: 河海大学

    摘要: 本发明公开了一种结合文档关键信息的句子级中文事件检测的方法,属于自然语言处理中文本信息抽取技术领域,包括:对数据进行BIO序列标注;获取句子所在文档中关键句子;获取文档关键句子向量表示和待检测的句子中字符向量表示;将待检测句子中字符向量表示和文档关键句子向量结合;建立事件触发词抽取模型。首先,使用BIO标注方法对中文句子中每个字符进行标注。其次,使用TextRank算法获取文档中关键句子。然后,使用BERT中文预训练模型对关键句产生文档向量表示,以及对句子中每个字符产生向量表示。最后,使用神经网络模型对句子中触发词进行抽取。本发明通过结合文档中关键信息来获取文档主题,弥补句子内信息缺乏,以此