-
公开(公告)号:CN107798043A
公开(公告)日:2018-03-13
申请号:CN201710504980.2
申请日:2017-06-28
Applicant: 贵州大学 , 贵州耕云科技有限公司
IPC: G06F17/30
CPC classification number: G06F17/30705
Abstract: 本发明公开了一种基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法。针对短文本的特征稀疏问题,本发明提出了主题相关长文本辅助短文本的思想,辅助的基础是长文本与短文本共享相同的主题-词语分配。为了更好地提升聚类效果,该发明能够自动判断长文本中的有用词和噪音词,利用长文本中高质量的有用词与短文本集合进行文本聚类。此外,本发明能够自动识别文本集类的数目,改进了传统文本集类数目需要人为提前给定的情况。
-
公开(公告)号:CN110516257A
公开(公告)日:2019-11-29
申请号:CN201910816186.0
申请日:2019-08-30
Applicant: 贵州大学
Abstract: 本发明公开了一种一种基于边界识别与组合的裁判文书证据抽取方法。为了有效抽取裁判文书里的证据,本发明分为三步:(1)使用RNNs识别证据实体的开始边界和结束边界。(2)组合所有开始边界和结束边界形成候选证据实体。(3)使用CNN对候选证据进行分类,识别真实的证据。基于边界识别与组合的方法弥补了传统的序列标注模型在长实体的识别上性能比较低的缺点,并且在一定程度上避免传统机器学习方法产生的特征稀疏问题,从而提高了裁判文书中证据抽取的性能。
-
公开(公告)号:CN107798043B
公开(公告)日:2022-05-03
申请号:CN201710504980.2
申请日:2017-06-28
Applicant: 贵州大学 , 贵州耕云科技有限公司
IPC: G06F16/35
Abstract: 本发明公开了一种基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法。针对短文本的特征稀疏问题,本发明提出了主题相关长文本辅助短文本的思想,辅助的基础是长文本与短文本共享相同的主题‑词语分配。为了更好地提升聚类效果,该发明能够自动判断长文本中的有用词和噪音词,利用长文本中高质量的有用词与短文本集合进行文本聚类。此外,本发明能够自动识别文本集类的数目,改进了传统文本集类数目需要人为提前给定的情况。
-
公开(公告)号:CN110516974A
公开(公告)日:2019-11-29
申请号:CN201910815035.3
申请日:2019-08-30
Applicant: 贵州大学
Abstract: 本发明公开了一种基于证据匹配的案件质量评估方法。本发明从案件的判决文书中抽取证据,通过让抽取的证据与该案件的电子卷宗目录、电子卷宗目录下图像、电子卷宗目录下图像文本等进行匹配的方式得到该案件的匹配结果。判决文书与电子卷宗之间的证据匹配结果能够直接反映该案件的质量状况,能够作为智能审判辅助系统的功能之一,从案件的角度反映人民法院司法改革的成效,促进法院的司法质量提升。
-
-
-