基于XML的领域要素提取配置语言系统

    公开(公告)号:CN111078947A

    公开(公告)日:2020-04-28

    申请号:CN201911130457.3

    申请日:2019-11-19

    IPC分类号: G06F16/80

    摘要: 本发明公开了一种基于XML的领域要素提取配置语言系统,该系统包括TZIE语言规则模块、TZIE语言解析器模块、TZIE功能调度器模块,TZIE语言规则模块包括TZIE语言模块、定义领域词典模块、定义要素模块、定义提取方法模块、配置方法关系模块、配置操作符模块;TZIE语言解析器模块把XML文件中的要素提取配置变成计算机代码语言;TZIE功能调度器模块依据要素提取任务中配置的操作符,调用相应的功能。通过跨领域文本要素提取配置,提供了一种跨领域通用的定义要素方式,同时可以根据文本特征配置适合的方法进行提取,tzie将各种技术封装成为功能操作符,形成一个XML配置文件,易于维护和优化。

    一种案件检索方法及系统

    公开(公告)号:CN110717041B

    公开(公告)日:2023-10-03

    申请号:CN201910884088.0

    申请日:2019-09-19

    摘要: 本发明公开了一种案件检索方法及系统,该方法包括:提取案件数据库中的案件要素信息与表述文本,对司法争议焦点描述文本进行聚类处理,形成争议焦点及要素标签库;基于争议焦点及要素标签库,对案件数据库中的案件卷宗材料进行数据对应标注,形成案件卷宗争议焦点库;根据所述争议焦点及要素标签库、案件卷宗争议焦点库,构建并训练案件语言检索模型;对欲检索的案件材料,通过基于案件争议焦点的话题矛盾检测方法,确定案件卷宗材料中的矛盾点,并根据矛盾点提炼成该案件材料相匹配的争议焦点;利用所述案件语言检索模型,根据提炼出的争议焦点对欲检索的案件材料提供数据检索服务。本发明能够从案件争议焦点角度进行相似案件的检索推送。

    基于主动学习和半监督学习的案情特征标注方法、装置和设备

    公开(公告)号:CN115952290A

    公开(公告)日:2023-04-11

    申请号:CN202310218333.0

    申请日:2023-03-09

    摘要: 本发明涉及一种基于主动学习和半监督学习的案情特征标注方法、装置和设备,属于智慧司法技术领域,该方法、装置和设备使用主动学习策略选取收益最大的部分样本交给法学专家进行标注,使用半监督学习策略选取置信度最高的部分样本扩充训练集,经过多次迭代后进行多层次多标签的案情特征标注;结合了主动学习和半监督学习的优点,仅需标注较少数据即可获得较大的标注收益和较多的高质量训练样本,并可对案情标签的层次结构和语义关系建模,从而解决当前案情特征标注中存在的全部人工标注成本过高和长尾效应问题,提升标注的效率和准确率。

    一种在线自学习的法院电子卷宗文本分类方法

    公开(公告)号:CN112836051B

    公开(公告)日:2024-03-26

    申请号:CN202110188680.4

    申请日:2021-02-19

    发明人: 万玉晴 王霄

    摘要: 本发明公开了一种在线自学习的法院电子卷宗文本分类方法,包括采集文本数据,基于所采集的法律文书语料集,采用Word2vec的Skip‑gram模型,训练得到司法领域词向量模型,基于所采集的卷宗语料集,采用Doc2vec的PV‑DM模型进行训练,进行训练LDA模型;使用多维度语义表示方法获取卷宗文件特征向量;在应用系统中集成基于高斯核函数的KELM离线学习案卷文本分类器;利用基于RLS的在线序列优化模型KOS‑ELM对当前案卷文本分类器进行在线优化。本发明通过基于人工标注的卷宗语料集,提出多维度语义表示方法获取卷宗文件特征向量,通过使用基于RLS的在线序列优化模型KOS‑ELM对当前案卷文本分类器进行在线优化,经过迭代更新,模型分类正确率得到了逐步优化。

    一种面向法院电子卷宗的案情信息自动抽取方法

    公开(公告)号:CN112417880B

    公开(公告)日:2023-06-23

    申请号:CN202011369142.7

    申请日:2020-11-30

    发明人: 万玉晴 王霄

    摘要: 本发明公开了一种面向法院电子卷宗的案情信息自动抽取方法,该方法包括:创建案情信息抽取框架,对各类案件电子卷宗文件中案情要素进行统计分析,构建基本案情本体;根据案情本体和电子卷宗文件版面特点,定制基本案情信息抽取策略;基于XML的跨领域信息抽取工具TZIE,构建案情信息抽取框架;基于多粒度语义的法律文书构建NER模型及训练,多粒度语义单元的结合方式,采用Word2vec的Skip‑gram模型和LDA主题模型,分别训练得到司法领域词向量模型和字向量模型,结合BiLSTM‑Attention‑CRF模型的领域实体识别,在基准模型BiLSTM‑CRF中增加了Attentio机制,预测每个语义单元属于不同标签的概率,辅助优化的模型训练方式,以人工标注语料训练模型作为主任务,以人工和自动标注语料训练模型作为辅助任务。

    基于XML的领域要素提取配置语言系统

    公开(公告)号:CN111078947B

    公开(公告)日:2023-06-02

    申请号:CN201911130457.3

    申请日:2019-11-19

    IPC分类号: G06F16/80

    摘要: 本发明公开了一种基于XML的领域要素提取配置语言系统,该系统包括TZIE语言规则模块、TZIE语言解析器模块、TZIE功能调度器模块,TZIE语言规则模块包括TZIE语言模块、定义领域词典模块、定义要素模块、定义提取方法模块、配置方法关系模块、配置操作符模块;TZIE语言解析器模块把XML文件中的要素提取配置变成计算机代码语言;TZIE功能调度器模块依据要素提取任务中配置的操作符,调用相应的功能。通过跨领域文本要素提取配置,提供了一种跨领域通用的定义要素方式,同时可以根据文本特征配置适合的方法进行提取,tzie将各种技术封装成为功能操作符,形成一个XML配置文件,易于维护和优化。

    一种基于案件争议焦点的辅助裁判结果预测方法及系统

    公开(公告)号:CN113222251A

    公开(公告)日:2021-08-06

    申请号:CN202110520493.1

    申请日:2021-05-13

    摘要: 本发明公开了一种基于案件争议焦点的辅助裁判结果预测方法,包括首先构建争议焦点知识图谱和庭审模型;然后根据争议焦点知识图谱,归纳当事人双方的诉求异同点,并向法庭推送争议点相关证据,完成庭前准备;最后基于自然语言处理技术,根据当事人双方庭审辩论对双方争议点和证据进行采信,依据设定的庭审模型将判决结果和事实陈述相匹配,预测案件结果,还提出一种基于案件争议焦点的辅助裁判结果预测系统,包括数据录入模块,庭前准备模块,庭审模块和输出模块,本发明通过利用案件知识图谱中案件各要素关系、法律逻辑、专家经验以及类似案例等众多信息,解决了说理分析的问题,基于自然语言处理技术,实现案件结果的预测,提高庭审效率。