一种基于文体和词表的突发事件信息抽取方法及系统

    公开(公告)号:CN107844609A

    公开(公告)日:2018-03-27

    申请号:CN201711343022.8

    申请日:2017-12-14

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种基于文体和词表的突发事件信息抽取方法及系统,首先分析研究了Web文本和新闻文体的特征,利用Google Word2Vec对专家构建的词表进行扩展,针对突发事件的不同属性制定了不同的抽取方法:采用词表进行事件分类,采用文体特征进行时间、事件摘要的抽取,采用文体和词表进行地点、伤亡情况和经济损失属性的抽取。实验表明,采用这种基于文体和词表方法在爬取的Web新闻语料库和公开语料库进行突发事件的属性进行抽取时,平均准确率分别为87.89%、91.29%,平均召回率分别为81.76%、87.91%,能满足应急管理需求。