一种基于自动机的实体关系快速抽取方法

    公开(公告)号:CN105824801B

    公开(公告)日:2018-06-15

    申请号:CN201610150794.9

    申请日:2016-03-16

    Abstract: 本发明提供一种基于自动机的实体关系快速抽取方法,包括以下步骤:步骤1,定制规则文件;步骤2,对规则文件中的各个规则进行文法检查,检测规则文件中的各个规则是否满足文法要求,如果满足,则执行步骤3;步骤3,对通过文法检查的所述规则文件中的各个规则进行语义解释;步骤4,将语义解释后的所述规则文件中的各个规则进行解析编译,完成规则向层叠有限状态自动机的转换,得到有限状态自动机;步骤5,使用所述有限状态自动机,对输入的文本数据进行实体属性以及实体关系的抽取,得到最终的实体属性以及实体关系。优点为:能够保证对开放域文本进行快速的实体关系与实体属性抽取。同时,对于特定领域的实体关系可以定制化的进行抽取。

    一种事理知识图谱构建方法及系统

    公开(公告)号:CN108052576A

    公开(公告)日:2018-05-18

    申请号:CN201711293661.8

    申请日:2017-12-08

    Abstract: 本发明涉及一种事理知识图谱构建方法及系统,该构建系统包括:宏观事件层构建模块、微观知识层构建模块、关系映射模块、本体层构建模块和事理知识图谱生成模块;所述宏观事件层构建模块包括:事件实体抽取单元、事件演化单元和因果关系抽取单元;所述微观知识层构建模块包括:微观实体抽取单元。本发明通过从结构化数据中获取事件实体和微观实体,分别构建宏观事件层和微观实体层,并抽取不同事件实体之间的因果关系映射到微观实体中,通过对微观实体层中微观实体的关系、类型和因果关系进行抽象和归纳,由此判断事件形成突发性群体响应的本质原因,对突发事件进行预警预测。

    一种流式数据主题挖掘方法及其系统

    公开(公告)号:CN107992474A

    公开(公告)日:2018-05-04

    申请号:CN201711193285.5

    申请日:2017-11-24

    Abstract: 本发明涉及一种流式数据主题挖掘方法及其系统,该挖掘方法包括:对结构化数据进行筛选,得到主题数据,提取主题数据的主题实体和主题关键词,分别生成主题实体集合和主题关键词集合;提取候选新闻数据的新闻实体和新闻关键词,分别生成新闻实体集合和新闻关键词集合;分别计算得到实体相关度、关键词相关度和核心词相关度;计算候选新闻数据与主题数据的新闻主题相似度,并将新闻主题相似度大于预设阈值的候选新闻数据导入合格新闻数据集合。本发明能够从海量的实时流式数据中准确找到用户关注的特定主题的相关新闻,保证了该主题下新闻的实时性、准确性,以及该主题下新闻动态的变化过程,并对新闻内容进行了分析。

    网络转发行为预测方法及装置
    77.
    发明公开

    公开(公告)号:CN104933475A

    公开(公告)日:2015-09-23

    申请号:CN201510275958.6

    申请日:2015-05-27

    Abstract: 本发明公开了一种网络转发行为预测方法及装置。该方法包括:计算待预测用户的转发行为与热点事件趋势的第一匹配度,并计算待预测微博与热点事件的第二匹配度;将第一匹配度、第二匹配度、以及待预测用户的信息输入到预先训练好的分类器中,输出待预测用户对待预测微博的动作类型。借助于本发明的技术方案,有效提高了微博转发行为预测的准确性。

    一种提速的基于IPC编码的查询处理方法

    公开(公告)号:CN106909621B

    公开(公告)日:2020-02-11

    申请号:CN201710035078.0

    申请日:2017-01-17

    Abstract: 本发明涉及一种提速的基于IPC编码的查询处理方法。该方法把IPC编码下的索引文件视为树形的跳表文件,实现快读略过子树的算法;在处理布尔的求交查询时,根据链表的单调性判断是否略过(skip)某些子树,略过(skip)操作可节省大量时间从而提高线上布尔查询处理速度;在处理排序查询时,使用常见的TAAT处理方式与continue机制,根据ID列表的求交结果的位置可以快速取出对应的频率的索引文件的对应的值,通过略过所有不必要访问的子树的手段提高线上排序查询的处理速度。本发明根据IPC编码的特点优化了查询速度(包括布尔查询与排序查询),优化了检索系统的用户体验。

    一种提速的基于IPC编码的查询处理方法

    公开(公告)号:CN106909621A

    公开(公告)日:2017-06-30

    申请号:CN201710035078.0

    申请日:2017-01-17

    Abstract: 本发明涉及一种提速的基于IPC编码的查询处理方法。该方法把IPC编码下的索引文件视为树形的跳表文件,实现快读略过子树的算法;在处理布尔的求交查询时,根据链表的单调性判断是否略过(skip)某些子树,略过(skip)操作可节省大量时间从而提高线上布尔查询处理速度;在处理排序查询时,使用常见的TAAT处理方式与continue机制,根据ID列表的求交结果的位置可以快速取出对应的频率的索引文件的对应的值,通过略过所有不必要访问的子树的手段提高线上排序查询的处理速度。本发明根据IPC编码的特点优化了查询速度(包括布尔查询与排序查询),优化了检索系统的用户体验。

Patent Agency Ranking