法律信息抽取模型及方法及系统及装置及辅助系统

    公开(公告)号:CN111680504B

    公开(公告)日:2020-11-27

    申请号:CN202010798144.1

    申请日:2020-08-11

    摘要: 本发明公开了法律信息抽取模型及方法及系统及装置及辅助系统,涉及自然语言处理领域,包括:定义裁判文书中需要标注的实体类型;标注选取的若干裁判文书中的实体类型;基于法律分词数据集和实体识别数据集得到训练集;建立裁判文书法律信息抽取模型,利用训练集训练裁判文书法律信息抽取模型;将法律信息待抽取的裁判文书输入训练后的裁判文书法律信息抽取模型,输出裁判文书中的法律信息抽取结果;裁判文书法律信息抽取模型结构包括:词嵌入层、共享‑私有信息抽取器、任务特有CRF层和任务判别器;本发明以公开的裁判文书为起点,最终实现裁判文书中相关重要法律信息要素的抽取。

    一种基于案情三元组信息的类案检索方法及系统

    公开(公告)号:CN111459973B

    公开(公告)日:2020-10-23

    申请号:CN202010548781.3

    申请日:2020-06-16

    摘要: 本发明公开了一种基于案情三元组信息的类案检索方法及系统:标注案情样本库中的案情样本得到标注样本库;将标注样本库输入模型进行训练得到三元组集合,三元组集合中的三元组包括案情实体和案情实体对应的要素;设置抽取案情的三元组评分模型;类案检索时,将待检索的案件的信息输入训练后的模型得到对应三元组集合;利用三元组评分模型对案情数据库中案情的三元组集合评分,将评分最高的一个或多个三元组集合对应的案情作为类案检索结果。本发明一种基于案情三元组信息的类案检索方法及系统,利用法律领域预训练语言模型和排序算法构造类案检索关键衡量标准,从法律专业的角度实现类案精准检索。

    一种基于深度学习的裁判文书文本纠错方法及系统

    公开(公告)号:CN111444706A

    公开(公告)日:2020-07-24

    申请号:CN202010542635.X

    申请日:2020-06-15

    摘要: 本发明公开了一种基于深度学习的裁判文书文本纠错方法,包括以下步骤:将裁判文书文本中错误检测分为命名实体检测和文本错误检测;进行命名实体检测时,定义专有名词,并检测裁判文书文本中的专有名词得到命名实体检测结果;进行文本错误检测时,利用文本错误模型检测裁判文书文本得到文本错误检测结果;根据关联词条处理文本错误检测结果得到纠错候选集;根据命名实体检测结果和纠错候选集进行纠错。本发明还公开了一种基于深度学习的裁判文书文本纠错系统。本发明对裁判文书全文做实体识别,进行进一步检测以避免上下文不一致,并且避免了传统方法中过纠错和纠错不足的问题。

    裁判规则提取方法及系统及装置及介质

    公开(公告)号:CN113779976A

    公开(公告)日:2021-12-10

    申请号:CN202111132644.2

    申请日:2021-09-27

    摘要: 本发明公开了裁判规则提取方法及系统及装置及介质,涉及自然语言处理信息抽取领域,包括:从若干个历史裁判文书中提取获得裁判因果关系提及;从所述裁判因果关系提及中提取获得裁判因果事件,基于所述裁判因果事件构建裁判因果网络;对所述裁判因果网络进行一般化处理,获得一般裁判规则网络;构建预测模型,将所述一般裁判规则网络嵌入所述预测模型中获得裁判规则提取模型,所述裁判规则提取模型的输入为裁判文书,输出为裁判规则;获得待处理裁判文书,将所述待处理裁判文书输入所述裁判规则提取模型,输出所述待处理裁判文书对应的裁判规则。本发明实现基于事件因果关系的裁判规则自动提取。

    模型训练方法及非投诉工单处理方法及系统及装置及介质

    公开(公告)号:CN113254644A

    公开(公告)日:2021-08-13

    申请号:CN202110630284.2

    申请日:2021-06-07

    IPC分类号: G06F16/35 G06Q10/06 G06Q30/00

    摘要: 本发明公开了模型训练方法及非投诉工单处理方法及系统及装置及介质,包括:获取历史数据,所述历史数据包括若干项A类数据和若干项B类数据;对与所述A类数据关联的B类数据进行标记为第一标记数据;对与所述A类数据未关联的B类数据进行标记为第二标记数据;对第一标记数据以及第二标记数据进行预处理,得到基础数据,并从所述基础数据中抽取特征数据,所述特征数据的增益大于阈值;利用所述特征数据建立分类模型并训练;通过本方法可以训练的分类模型能够获得可以获得B类数据转为A类数据的概率。

    模型建立方法及系统及段落标签获得方法及介质

    公开(公告)号:CN112699218A

    公开(公告)日:2021-04-23

    申请号:CN202011605780.4

    申请日:2020-12-30

    摘要: 本发明公开了模型建立方法及系统及段落标签获得方法及介质,涉及自然语言处理迁移学习领域,包括:从数据库中收集所有的裁判文书数据获得预训练数据;定义不同类型裁判文书的段落标签;标记不同类型的裁判文书的段落标签,得到训练数据;构建裁判文书结构化模型;预训练模型;利用训练数据训练预训练后的裁判文书结构化模型;调试训练后的裁判文书结构化模型,得到最终的裁判文书结构化模型;其中,裁判文书结构化模型的输入为裁判文书文本数据,且该输入裁判文书的段落添加有任务前缀,裁判文书结构化模型的输出为裁判文书的段落标签文本数据;通过本方法建立的模型在训练后可以对任意类型的裁判文书段落标签进行预测。

    一种基于裁判文书的论辩观点挖掘方法及系统

    公开(公告)号:CN112651853A

    公开(公告)日:2021-04-13

    申请号:CN202011287899.1

    申请日:2020-11-17

    IPC分类号: G06Q50/18 G06F16/35

    摘要: 本发明公开了一种基于裁判文书的论辩观点挖掘方法及系统,本发明的方法包括:分段裁判文书,得到原告诉称的段落内容和被告辩称的段落内容;分别将原告诉称的段落内容和被告辩称的段落内容分句;一一匹配原告诉称的分句内容与被告辩称的分句内容,判断原告诉称和被告辩称的两个分句内容是否能够组成辩论对。本发明借助计算机技术以及自然语言处理技术自动识别提取裁判文书中的争议焦点,利用机器学习算法提取裁判文书中的辩论对。

    法律信息抽取模型及方法及系统及装置及辅助系统

    公开(公告)号:CN111680504A

    公开(公告)日:2020-09-18

    申请号:CN202010798144.1

    申请日:2020-08-11

    摘要: 本发明公开了法律信息抽取模型及方法及系统及装置及辅助系统,涉及自然语言处理领域,包括:定义裁判文书中需要标注的实体类型;标注选取的若干裁判文书中的实体类型;基于法律分词数据集和实体识别数据集得到训练集;建立裁判文书法律信息抽取模型,利用训练集训练裁判文书法律信息抽取模型;将法律信息待抽取的裁判文书输入训练后的裁判文书法律信息抽取模型,输出裁判文书中的法律信息抽取结果;裁判文书法律信息抽取模型结构包括:词嵌入层、共享-私有信息抽取器、任务特有CRF层和任务判别器;本发明以公开的裁判文书为起点,最终实现裁判文书中相关重要法律信息要素的抽取。