-
公开(公告)号:CN113505200A
公开(公告)日:2021-10-15
申请号:CN202110801337.2
申请日:2021-07-15
申请人: 河海大学
IPC分类号: G06F16/33 , G06F16/35 , G06F40/211 , G06F40/216 , G06F40/289 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08
摘要: 本发明公开了一种结合文档关键信息的句子级中文事件检测的方法,属于自然语言处理中文本信息抽取技术领域,包括:对数据进行BIO序列标注;获取句子所在文档中关键句子;获取文档关键句子向量表示和待检测的句子中字符向量表示;将待检测句子中字符向量表示和文档关键句子向量结合;建立事件触发词抽取模型。首先,使用BIO标注方法对中文句子中每个字符进行标注。其次,使用TextRank算法获取文档中关键句子。然后,使用BERT中文预训练模型对关键句产生文档向量表示,以及对句子中每个字符产生向量表示。最后,使用神经网络模型对句子中触发词进行抽取。本发明通过结合文档中关键信息来获取文档主题,弥补句子内信息缺乏,以此提高对触发词识别准确率。
-
公开(公告)号:CN113505200B
公开(公告)日:2023-11-24
申请号:CN202110801337.2
申请日:2021-07-15
申请人: 河海大学
IPC分类号: G06F16/33 , G06F16/35 , G06F40/211 , G06F40/216 , G06F40/289 , G06F40/30 , G06F18/24 , G06N3/0442 , G06N3/048 , G06N3/08
摘要: 本发明公开了一种结合文档关键信息的句子级中文事件检测的方法,属于自然语言处理中文本信息抽取技术领域,包括:对数据进行BIO序列标注;获取句子所在文档中关键句子;获取文档关键句子向量表示和待检测的句子中字符向量表示;将待检测句子中字符向量表示和文档关键句子向量结合;建立事件触发词抽取模型。首先,使用BIO标注方法对中文句子中每个字符进行标注。其次,使用TextRank算法获取文档中关键句子。然后,使用BERT中文预训练模型对关键句产生文档向量表示,以及对句子中每个字符产生向量表示。最后,使用神经网络模型对句子中触发词进行抽取。本发明通过结合文档中关键信息来获取文档主题,弥补句子内信息缺乏,以此
-