一种基于自动机的实体关系快速抽取方法

    公开(公告)号:CN105824801A

    公开(公告)日:2016-08-03

    申请号:CN201610150794.9

    申请日:2016-03-16

    CPC classification number: G06F17/2785 G06F16/288

    Abstract: 本发明提供一种基于自动机的实体关系快速抽取方法,包括以下步骤:步骤1,定制规则文件;步骤2,对规则文件中的各个规则进行文法检查,检测规则文件中的各个规则是否满足文法要求,如果满足,则执行步骤3;步骤3,对通过文法检查的所述规则文件中的各个规则进行语义解释;步骤4,将语义解释后的所述规则文件中的各个规则进行解析编译,完成规则向层叠有限状态自动机的转换,得到有限状态自动机;步骤5,使用所述有限状态自动机,对输入的文本数据进行实体属性以及实体关系的抽取,得到最终的实体属性以及实体关系。优点为:能够保证对开放域文本进行快速的实体关系与实体属性抽取。同时,对于特定领域的实体关系可以定制化的进行抽取。

    一种面向网络数据的专题文档快速识别系统

    公开(公告)号:CN105843854B

    公开(公告)日:2019-02-05

    申请号:CN201610150817.6

    申请日:2016-03-16

    Abstract: 本发明提供一种面向网络数据的专题文档快速识别系统,通过与不同规则的高效匹配达到快速识别专题的目的。本发明主要由文档获取模块、文档结果存储模块、轮询监测模块、实时服务接口、历史服务接口、规则树构建模块、实时过滤处理模块和回溯过滤处理模块组成。本发明实现了对实时数据和历史有效数据同时进行处理的功能,能够对大量文档数据进行批量处理,能够在保证系统正常运行的前提下对处理算法进行动态热切换,能够在输入输出接口内容变动后依然可以保证系统的正常运行,弥补了目前一些文档识别系统无法随意更改、灵活性和复用性差等的缺陷,对需求变更有很强的适应性。

Patent Agency Ranking