一种基于案件要素相似性建模的案件串并方法

    公开(公告)号:CN109918674B

    公开(公告)日:2022-12-30

    申请号:CN201910193112.6

    申请日:2019-03-14

    发明人: 金勇 朱其斯

    IPC分类号: G06F40/30 G06F40/284

    摘要: 本发明公开了一种基于案件要素相似性建模的案件串并方法,包括要素相似性计算和综合相似性计算;基于语义相似与规则相似,结合了语义分析和数据建模技术,以及警务研判经验为一体,实现了通过七大要素自动计算案件之间的相似性,再辅以适当的人工分析,就可以大大提高了案件串并的效率。

    一种基于依存句法和模式规则的非限定型关系挖掘方法

    公开(公告)号:CN108763195B

    公开(公告)日:2022-01-18

    申请号:CN201810410033.1

    申请日:2018-05-02

    发明人: 金勇 吴兵

    摘要: 本发明公开了一种基于依存句法和模式规则的非限定型关系挖掘方法,包括以下步骤:步骤一、分词和词性标注;步骤二、实体识别;步骤三、依存句法分析;步骤四、实体关系挖掘;步骤五、关系挖掘综合结果;本发明能够实现大规模非结构化或半结构化文本的语义信息提取,实现实体关系的自动抽取,有效的从大量文本中挖掘实体关系信息,从而提升业务应用价值。

    一种面向海量互联网文本数据的流式聚类及展现的方法

    公开(公告)号:CN107562853B

    公开(公告)日:2021-02-23

    申请号:CN201710751232.4

    申请日:2017-08-28

    摘要: 本发明公开了一种面向海量互联网文本数据的流式聚类及展现的方法,包括以下步骤:步骤1、提取互联网中的新闻信息并存入数据库;步骤2、对数据库中已有的数据进行聚类,通过调节多个数据之间的聚类相似度来建立向量空间模型;步骤3、储存步骤2中的聚类数据所对应的向量,删除聚类数据对应的文本内容,得到聚类模型;步骤4、将数据库得到的新的数据和步骤3中的聚类模型进行动态聚类,并更新聚类结果;本发明解决了传统聚类算法只能对固定大小的数据集合进行聚类的问题,并设法降低了层次聚类应用于实时增大的数据集时所需的计算资源,能够对不断更新和增长的数据集进行聚合处理以实现更加精确和灵敏的相似内容推荐功能。

    一种基于深度学习和规则引擎的文本信息抽取方法及系统

    公开(公告)号:CN111538805A

    公开(公告)日:2020-08-14

    申请号:CN202010449750.2

    申请日:2020-05-25

    摘要: 本发明涉及一种基于深度学习和规则引擎的文本信息抽取方法及系统,所述方法具体包括以下步骤:S1:将输入的公安文档解析成可处理文本,并进行无用字符清洗及段落切割;S2:针对切割后的段落,抽取段落中所有出现的涉案涉线人员姓名与地址信息;S3:采用规则引擎抽取文档中涉案涉线人员相关属性,同时利用时间识别算法抽取段落中包含的线索信息;S4:通过语义理解模块确定S3中抽取的人员、线索信息对应关系,并进行人员称呼消歧及多关系融合,最后输出结构化结果。本申请的文本信息抽取方法和系统,采用深度学习模型与规则引擎相结合,促进非结构化文档信息的利用,实现人员与线索的快速相关联,提升公安民警的判案效率。

    一种基于词典和语义消歧的人名识别方法和装置

    公开(公告)号:CN108664468A

    公开(公告)日:2018-10-16

    申请号:CN201810410031.2

    申请日:2018-05-02

    发明人: 金勇 朱其斯

    IPC分类号: G06F17/27

    摘要: 本发明公开了一种基于词典和语义消歧的人名识别方法和装置,所述方法包括姓名抽取和姓名消歧;所述装置包括姓名抽取模块和姓名消岐模块;本发明所要解决的主要问题是提供人名识别的方法,根据姓名字典找出所有可能的姓名,进而通过最小间隙和最短分词长度来进行姓名的消歧,最终得到准确的人名信息,避免了分词不准确导致姓名分不出来以及过度识别姓名的问题,提高中文语义识别的准确率,也可以提高相关应用人员的工作效率。

    一种案件语义要素的自动抽取方法

    公开(公告)号:CN107894981A

    公开(公告)日:2018-04-10

    申请号:CN201711332273.6

    申请日:2017-12-13

    IPC分类号: G06F17/27

    摘要: 本发明公开了一种案件语义要素的自动抽取方法,(1)序列标注模块:根据预先训练好的中文序列标注模型对简要案情文本进行词性标注,识别出里面的名词,动词和动名词;(2)词义相似模块:利用词义相似算法丰富种子词库;(3)调优模块:多次人工校准,对要素提取结果进行进一步的调优;(4)分类词库模块:要素按类别形成类别词库。该案件语义要素的自动抽取方法,实现了从繁杂无规律的简要案情中,自动抽取案件语义要素,大大提升了案件语义要素提取的效率,降低了人力抽取成本,同时也可以将此系统用于公安行业的其他非结构化文本信息的语义理解分析,为案件的关联分析提供有效方法,提高办案效率。

    基于Bi-LSTM和CRF的文本序列标注系统及方法

    公开(公告)号:CN107622050A

    公开(公告)日:2018-01-23

    申请号:CN201710828497.X

    申请日:2017-09-14

    摘要: 本发明公开了基于Bi-LSTM和CRF的文本序列标注系统及方法,系统包括学习模块和标注模块,标注模块包括分词模块、语料标注模块和调优模块,语料标注模块包括词性标注模块和实体识别模块;方法为将获取的语料进行预处理,将预处理后的语料输入预设的学习模型,调整学习模型的参数并保存,根据学习模型输出的序列分类结果为语料分别添加对应的预测标签,对于未知语料,进行分词,利用调整后的学习模型对分词后的未知语料进行初次标注,将初次标注的未知语料进行调优,对调优后的语料进行最终标注;本发明使用户可以根据需求对词库进行调整,具有人机交互调整的功能,实现同一领域自动标注,不同领域半自动标注过程,提升效率,降低成本。

    一种网络舆情文本信息推荐及可视化方法

    公开(公告)号:CN107491548A

    公开(公告)日:2017-12-19

    申请号:CN201710750370.0

    申请日:2017-08-28

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种网络舆情文本信息推荐及可视化方法,包括以下步骤:步骤1、构建知识库;步骤2、通过深度学习,将构建的知识库进行预处理;步骤3、通过垂直细分领域的主题模型,对预处理的文本信息进行匹配聚类与过滤;步骤4、对步骤3中统计文本信息,使用FM算法进行排序,展现过滤后得到的文本信息;本发明通过改进的地理位置识别及推理方法,可以准确监控用户关心的地理区域;通过用户匹配可以将用户关心的内容打上用户标签,给用户高效、全面、准确的推荐数据;同时,用户数据排序可以将舆情分析引擎系统的热点信息与突发事件排在前面,方便用户加强舆情监控,提高用户舆情应对能力。

    一种通用型文档问答实现方法、系统、设备及存储介质

    公开(公告)号:CN116881425A

    公开(公告)日:2023-10-13

    申请号:CN202310995639.7

    申请日:2023-08-08

    摘要: 本发明公开一种通用型文档问答实现方法,包括以下步骤:S1、将不同格式的文档解析成纯文本格式的文档集;S2、将所述文档集分成语义完整不冗余的文本段集合D;S3、对所述文本段集合D建立倒排索引库IndexS和向量索引库IndexV;S4、对用户的问句在所述倒排索引库和所述向量索引库进行检索,使用动态加权相似度的方式计算所述问句与所述文本段集合的相似度,得到最相关的top‑k个候选文本段Dcand;S5、将所述问句和所述候选文本段构建Prompt模板,将Prompt模板输入至大模型中进行答案的生成;本发明答案检索召回率高,对复杂问题的解析及处理能力强,并且能够免去人工标注成本,使其方便快速的拓展到其他任意场景,赋予文档问答通用能力。