-
公开(公告)号:CN111680504B
公开(公告)日:2020-11-27
申请号:CN202010798144.1
申请日:2020-08-11
申请人: 四川大学 , 成都数之联科技有限公司
发明人: 翁洋 , 李鑫 , 王竹 , 其他发明人请求不公开姓名
IPC分类号: G06F40/284 , G06N3/04 , G06N3/08 , G06Q50/18
摘要: 本发明公开了法律信息抽取模型及方法及系统及装置及辅助系统,涉及自然语言处理领域,包括:定义裁判文书中需要标注的实体类型;标注选取的若干裁判文书中的实体类型;基于法律分词数据集和实体识别数据集得到训练集;建立裁判文书法律信息抽取模型,利用训练集训练裁判文书法律信息抽取模型;将法律信息待抽取的裁判文书输入训练后的裁判文书法律信息抽取模型,输出裁判文书中的法律信息抽取结果;裁判文书法律信息抽取模型结构包括:词嵌入层、共享‑私有信息抽取器、任务特有CRF层和任务判别器;本发明以公开的裁判文书为起点,最终实现裁判文书中相关重要法律信息要素的抽取。
-
公开(公告)号:CN111459973B
公开(公告)日:2020-10-23
申请号:CN202010548781.3
申请日:2020-06-16
申请人: 四川大学 , 成都数之联科技有限公司
发明人: 王竹 , 李鑫 , 翁洋 , 其他发明人请求不公开姓名
IPC分类号: G06F16/242 , G06F16/2455 , G06Q50/18
摘要: 本发明公开了一种基于案情三元组信息的类案检索方法及系统:标注案情样本库中的案情样本得到标注样本库;将标注样本库输入模型进行训练得到三元组集合,三元组集合中的三元组包括案情实体和案情实体对应的要素;设置抽取案情的三元组评分模型;类案检索时,将待检索的案件的信息输入训练后的模型得到对应三元组集合;利用三元组评分模型对案情数据库中案情的三元组集合评分,将评分最高的一个或多个三元组集合对应的案情作为类案检索结果。本发明一种基于案情三元组信息的类案检索方法及系统,利用法律领域预训练语言模型和排序算法构造类案检索关键衡量标准,从法律专业的角度实现类案精准检索。
-
公开(公告)号:CN111444706A
公开(公告)日:2020-07-24
申请号:CN202010542635.X
申请日:2020-06-15
申请人: 四川大学 , 成都数之联科技有限公司
发明人: 李鑫 , 王竹 , 翁洋 , 其他发明人请求不公开姓名
IPC分类号: G06F40/232 , G06F40/295 , G06F40/247 , G06Q50/18
摘要: 本发明公开了一种基于深度学习的裁判文书文本纠错方法,包括以下步骤:将裁判文书文本中错误检测分为命名实体检测和文本错误检测;进行命名实体检测时,定义专有名词,并检测裁判文书文本中的专有名词得到命名实体检测结果;进行文本错误检测时,利用文本错误模型检测裁判文书文本得到文本错误检测结果;根据关联词条处理文本错误检测结果得到纠错候选集;根据命名实体检测结果和纠错候选集进行纠错。本发明还公开了一种基于深度学习的裁判文书文本纠错系统。本发明对裁判文书全文做实体识别,进行进一步检测以避免上下文不一致,并且避免了传统方法中过纠错和纠错不足的问题。
-
公开(公告)号:CN112651853A
公开(公告)日:2021-04-13
申请号:CN202011287899.1
申请日:2020-11-17
申请人: 四川大学 , 成都数之联科技有限公司
发明人: 李鑫 , 王竹 , 翁洋 , 其他发明人请求不公开姓名
摘要: 本发明公开了一种基于裁判文书的论辩观点挖掘方法及系统,本发明的方法包括:分段裁判文书,得到原告诉称的段落内容和被告辩称的段落内容;分别将原告诉称的段落内容和被告辩称的段落内容分句;一一匹配原告诉称的分句内容与被告辩称的分句内容,判断原告诉称和被告辩称的两个分句内容是否能够组成辩论对。本发明借助计算机技术以及自然语言处理技术自动识别提取裁判文书中的争议焦点,利用机器学习算法提取裁判文书中的辩论对。
-
公开(公告)号:CN111680504A
公开(公告)日:2020-09-18
申请号:CN202010798144.1
申请日:2020-08-11
申请人: 四川大学 , 成都数之联科技有限公司
发明人: 翁洋 , 李鑫 , 王竹 , 其他发明人请求不公开姓名
IPC分类号: G06F40/284 , G06N3/04 , G06N3/08 , G06Q50/18
摘要: 本发明公开了法律信息抽取模型及方法及系统及装置及辅助系统,涉及自然语言处理领域,包括:定义裁判文书中需要标注的实体类型;标注选取的若干裁判文书中的实体类型;基于法律分词数据集和实体识别数据集得到训练集;建立裁判文书法律信息抽取模型,利用训练集训练裁判文书法律信息抽取模型;将法律信息待抽取的裁判文书输入训练后的裁判文书法律信息抽取模型,输出裁判文书中的法律信息抽取结果;裁判文书法律信息抽取模型结构包括:词嵌入层、共享-私有信息抽取器、任务特有CRF层和任务判别器;本发明以公开的裁判文书为起点,最终实现裁判文书中相关重要法律信息要素的抽取。
-
公开(公告)号:CN112395426A
公开(公告)日:2021-02-23
申请号:CN202011277803.3
申请日:2020-11-16
申请人: 四川大学 , 成都数之联科技有限公司
发明人: 翁洋 , 王竹 , 李鑫 , 其他发明人请求不公开姓名
IPC分类号: G06F16/36 , G06F16/338 , G06F16/33 , G06Q50/18
摘要: 本发明公开了语义匹配模型训练方法及系统、检索系统、装置、介质,涉及自然语言处理领域,包括:选择包含预设争议焦点的裁判文书作为基础样本;定义单组训练样本为三元组样本Q、D+和D‑,基于该裁判文书对应的Q、D+和D‑得到单组训练样本;基于多个单组训练样本生成训练样本;对每个单组训练样本利用语义匹配模型分别计算Q与D+和D‑的相关性得分,基于相关性得分和损失函数训练语义匹配模型;本发明避免了争议焦点多导致的搜索前争议焦点选择困难的问题;解决了返回裁判文书排序质量低的问题,利用深度语义匹配模型将争议焦点与案情事实结合起来,使得在召回后裁判文书的再排序结果精确度大大提高。
-
公开(公告)号:CN112131370A
公开(公告)日:2020-12-25
申请号:CN202011324245.1
申请日:2020-11-23
申请人: 四川大学 , 成都数之联科技有限公司
发明人: 李鑫 , 王竹 , 翁洋 , 其他发明人请求不公开姓名
IPC分类号: G06F16/332 , G06F16/33 , G06F40/30 , G06N5/04
摘要: 本发明公开了问答模型构建方法及系统、问答方法及装置、审判系统,问答模型包括推理路径检索模型和阅读理解模型,方法包括:构造检索推理路径标注数据集;基于检索推理路径标注数据集,构建推理路径检索模型用于从预设信息中检索出推理路径;构造推理路径检索模型的损失函数;利用检索推理路径标注数据集训练推理路径检索模型;基于训练后的推理路径检索模型,得到问题对应的多个推理路径;基于推理路径和答案构建阅读理解模型用于从多个推理路径中选择最佳推理路径和获得答案,本发明实现基于多跳阅读理解的智能问答,不仅可以基于预设信息给出问题的答案,而且可以给出获取答案的推理过程。
-
公开(公告)号:CN111444678B
公开(公告)日:2020-09-22
申请号:CN202010550140.1
申请日:2020-06-16
申请人: 四川大学 , 成都数之联科技有限公司
发明人: 翁洋 , 王竹 , 李鑫 , 其他发明人请求不公开姓名
摘要: 本发明公开了一种基于机器阅读理解的起诉状信息抽取方法及系统:标注起诉状样本集得到三元样本集;将训练集输入预训练模型得到起诉状向量序列X;将裁判文书样本集中每一个样本均嵌入成向量得到文书向量序列Y;聚合选取出的文书向量与起诉状向量序列X中的起诉状向量得到最终向量Z;将预训练模型的最终隐藏状态转换为答案跨度的概率,生成最终模型。本发明一种基于机器阅读理解的起诉状信息抽取方法及系统利用机器阅读理解技术自动提取起诉状中预设模板的相关信息内容,并保证信息提取精度。
-
公开(公告)号:CN111459973A
公开(公告)日:2020-07-28
申请号:CN202010548781.3
申请日:2020-06-16
申请人: 四川大学 , 成都数之联科技有限公司
发明人: 王竹 , 李鑫 , 翁洋 , 其他发明人请求不公开姓名
IPC分类号: G06F16/242 , G06F16/2455 , G06Q50/18
摘要: 本发明公开了一种基于案情三元组信息的类案检索方法及系统:标注案情样本库中的案情样本得到标注样本库;将标注样本库输入模型进行训练得到三元组集合,三元组集合中的三元组包括案情实体和案情实体对应的要素;设置抽取案情的三元组评分模型;类案检索时,将待检索的案件的信息输入训练后的模型得到对应三元组集合;利用三元组评分模型对案情数据库中案情的三元组集合评分,将评分最高的一个或多个三元组集合对应的案情作为类案检索结果。本发明一种基于案情三元组信息的类案检索方法及系统,利用法律领域预训练语言模型和排序算法构造类案检索关键衡量标准,从法律专业的角度实现类案精准检索。
-
公开(公告)号:CN111444678A
公开(公告)日:2020-07-24
申请号:CN202010550140.1
申请日:2020-06-16
申请人: 四川大学 , 成都数之联科技有限公司
发明人: 翁洋 , 王竹 , 李鑫 , 其他发明人请求不公开姓名
摘要: 本发明公开了一种基于机器阅读理解的起诉状信息抽取方法及系统:标注起诉状样本集得到三元样本集;将训练集输入预训练模型得到起诉状向量序列X;将裁判文书样本集中每一个样本均嵌入成向量得到文书向量序列Y;聚合选取出的文书向量与起诉状向量序列X中的起诉状向量得到最终向量Z;将预训练模型的最终隐藏状态转换为答案跨度的概率,生成最终模型。本发明一种基于机器阅读理解的起诉状信息抽取方法及系统利用机器阅读理解技术自动提取起诉状中预设模板的相关信息内容,并保证信息提取精度。
-
-
-
-
-
-
-
-
-