一种法律法条引用信息抽取系统
    81.
    发明公开

    公开(公告)号:CN112069307A

    公开(公告)日:2020-12-11

    申请号:CN202010861271.1

    申请日:2020-08-25

    发明人: 窦志成 苏展

    摘要: 本发明通过人工智能领域的方法,实现了一种法律法条引用信息抽取系统,系统架构分为输入模块、基于DFA与深度文本匹配模型和输出模块,通过输入模块读取外部输入的文本信息,并作为待匹配文本输入所述基于DFA与深度文本匹配模型,基于DFA与深度文本匹配模型运算,利用DFA模型抽取文本中引用的法律和法条,使用TF‑IDF选取特征词来区分同一部法律历史版本的法条,通过计算特征词序列之间的相似度来筛选可能匹配上的候选法条,消除了数据倾斜的问题,将候选法条输入MV‑LSTM计算得到文本与法条的语义相似度,根据语义相似度来判断文本与法条是否匹配,解决了法律法条引用信息的抽取问题。

    一种基于深度匹配模型的跨平台商品匹配方法

    公开(公告)号:CN109584006B

    公开(公告)日:2020-12-01

    申请号:CN201811423859.8

    申请日:2018-11-27

    IPC分类号: G06Q30/06 G06N3/04

    摘要: 本发明涉及一种基于深度匹配模型的商品匹配方法,其包括以下步骤:定义两个商品X、Y的标题相似度和属性相似度;计算得到两个商品X、Y的商品标题相似度和商品属性相似度;将两个商品X、Y的商品标题相似度SIMt和商品属性相似度SIMa进行融合,进而判断出两个商品是否匹配,是否属于同一种商品。本发明能计算出不同平台的两个商品的相似度,从而判断出这两个商品描述是否指的是同一个商品。

    一种基于历史评估结果的主动学习算法

    公开(公告)号:CN111310799A

    公开(公告)日:2020-06-19

    申请号:CN202010063306.7

    申请日:2020-01-20

    发明人: 窦志成

    IPC分类号: G06K9/62 G06N3/04 G06N20/00

    摘要: 本发明涉及一种基于历史评估结果的主动学习算法,其特征在于,包括以下内容:1)采用已标注样本集,对任务模型进行初始化;2)根据未标注样本集中未标注样本的历史评估结果的加权和/历史评估结果的波动性/排序模型的排序结果,选出未标注样本集中的部分未标注样本;3)对选出的未标注样本进行标注并加入到已标注样本集中,训练和更新任务模型;4)重复步骤2)~3),直至训练和更新后的任务模型在测试集上的表现满足预先设定的要求,本发明可以广泛应用于机器学习领域中。

    一种针对海量数据中查询词的搜索维度挖掘方法

    公开(公告)号:CN105528421B

    公开(公告)日:2018-09-04

    申请号:CN201510890422.5

    申请日:2015-12-07

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种针对海量数据中查询词的搜索维度挖掘方法,其该方法包括如下步骤:1)基于文本、HTML标签和重复区域等模式,从抓取到的数据集中的每一个网页中抽取Lists;2)增加抽取机制,以实现对步骤1)中抽取到的Lists进行有效性扩充;3)评估抽取出来的每一个List的重要性;4)词项列表聚类:将相似的词项列表进行合并形成一个查询维度;5)查询维度及词项列表的排序:计算不同的查询分面、词项的重要性。本发明可以获得更多有效的词项列表,在得到补充后的词项列表之后,对新的词项列表进行打分,将相似的词项列表进行合并分类,计算不同的查询分面、词项列表的重要性,最终使得挖掘出的查询维度更加完善,使得用户可以获得更为完整的信息。