一种面向庭审阅卷的案件画像挖掘方法

    公开(公告)号:CN113220850B

    公开(公告)日:2024-06-11

    申请号:CN202110451235.2

    申请日:2021-04-26

    摘要: 本发明公开了一种面向庭审阅卷的案件画像挖掘方法,使用基于规则的方法和基于统计学习的自然语言处理想结合的方法来提取案件画像信息,首先会获取大量真实案件的卷宗并对卷宗文件进行预处理,然后根据宪法、刑法等法律相关知识构建出需要提取的信息也即空的案件画像树,之后基于提炼的规则和模型提取画像树所需要的信息,仅仅需要少量有标注数据就可以进行训练,最后根据提取的信息生成完整的案件画像树,可以实现计算机自动化的阅卷,将卷宗信息提取出来方便法官快速的了解案件信息和后续自动化判案。

    一种基于原型网络的嵌套命名实体识别方法和装置

    公开(公告)号:CN118364822A

    公开(公告)日:2024-07-19

    申请号:CN202410776086.0

    申请日:2024-06-17

    摘要: 本发明提供了一种基于原型网络的嵌套命名实体识别方法和装置,属于自然语言处理技术领域。本发明方法采用原型网络作为识别结构;构建训练样本时,根据训练文本序列中每个字符在已知实体中的位置和实体类型,构成标签;一个字符可能对应多个标签,形成理想标签组,组成训练样本,对原型网络进行训练;进行识别时,将待识别文本序列输入原型网络,生成每个字符对应的标签组;待识别文本所有字符的标签组组成标签序列,最后对标签序列进行标签解析,识别出实体。使用本发明能够能够有效支撑多类别嵌套实体的识别。

    一种基于分组编码的长文本处理方法

    公开(公告)号:CN117436407A

    公开(公告)日:2024-01-23

    申请号:CN202311079493.8

    申请日:2023-08-25

    摘要: 一种基于分组编码的长文本推理方法,具体步骤包括:根据文本长度和预训练模型可接受的句子最大字符数计算分组长度;根据计算的分组长度,对分词后的句子进行分组;对分组后的每组字符进行编号,其中,每组内的字符采用相同编号;根据编号自动选取位置向量。本公开通过分组编码突破预训练模型文本长度限制,同时可以使得经预训练模型计算后的隐层向量获得文本的全局信息,适用于任何自然语言处理任务。

    一种面向庭审阅卷的案件画像挖掘方法

    公开(公告)号:CN113220850A

    公开(公告)日:2021-08-06

    申请号:CN202110451235.2

    申请日:2021-04-26

    摘要: 本发明公开了一种面向庭审阅卷的案件画像挖掘方法,使用基于规则的方法和基于统计学习的自然语言处理想结合的方法来提取案件画像信息,首先会获取大量真实案件的卷宗并对卷宗文件进行预处理,然后根据宪法、刑法等法律相关知识构建出需要提取的信息也即空的案件画像树,之后基于提炼的规则和模型提取画像树所需要的信息,仅仅需要少量有标注数据就可以进行训练,最后根据提取的信息生成完整的案件画像树,可以实现计算机自动化的阅卷,将卷宗信息提取出来方便法官快速的了解案件信息和后续自动化判案。