一种基于典型特征的可解释文本检测方法

    公开(公告)号:CN115719068A

    公开(公告)日:2023-02-28

    申请号:CN202211391300.8

    申请日:2022-11-08

    Abstract: 本发明公开了一种基于典型特征的可解释文本检测方法,其包括:将待检测文本数据输入文本属性提取模型,得到待检测文本的固有属性;所述固有属性包括字词属性、句子属性、段落属性;将所述待检测文本数据输入训练好的语义特征提取模型,得到待检测文本的语义特征;所述语义特征包括夸张、煽动、怀疑、消极、恐慌、中性、积极;将待检测文本的固有属性和多类型语义特征以及所述待检测文本数据输入训练好的文本内容辨识模型,得到文本内容的辨识结果;所述辨识结果为真实的概率值。本发明能够基于深度学习模型,能够线上实时辨识,降低辨识过程的人工成本;能够对辨识结果进行可解释性分析,做到真伪辨识的有理有据。

    关键词语料标注训练提取系统

    公开(公告)号:CN110298033B

    公开(公告)日:2022-07-08

    申请号:CN201910455064.3

    申请日:2019-05-29

    Abstract: 本发明公开的一种关键词语料标注训练提取工具,旨在提供一种可降低人工标注过程繁复度,并能提高海量关键词语料标注效率和准确率的标注训练工具。本发明通过下述技术方案予以实现:关键词语料标注准备模块对不同来源的海量语料数据进行区分,半自动化语料关键词标注模块创建关键词标注任务,自主选择适配算法并开展基于算法模型的自动标注,通过集成CHI、LDA、TEXTRANK、TFIDF中至少一种关键词抽取算法,对待标注文本语料数据进行预标注处理,并对多种算法标注结果进行融合,当标注任务完成后,反馈式关键词标注模型学习训练模块对关键词标注算法模型进行训练;关键词标注模型效果评估模块对模型指标量化标注效果进行自动评估。

    文本分类语料标注训练系统

    公开(公告)号:CN110298032A

    公开(公告)日:2019-10-01

    申请号:CN201910455049.9

    申请日:2019-05-29

    Abstract: 本发明公开的一种文本分类语料标注训练系统,旨在提供一种能够降低人工标注反复度,并能提升预标注结果准确性的半自动化标注训练装置。本发明通过下述技术方案予以实现:文本分类语料标注准备模块统计文本词频,去除文本的噪声信息;半自动化文本分类标注模块在分类标注任务中选择CNN、KNN、ANN、深度学习算法,把非结构化和半结构化的文本转换为向量空间模型,生成文本的词向量空间,抽取反映文档主题特征;当标注任务完成后,反馈式模型学习训练模块反馈分类标注模型完善更新;文本分类标注模型效果评估模块基于分类指标规则对评测指标进行量化,建立标注算法综合评估模型,分析测试结果,评价分类结果,对模型指标量化标注效果进行评估。

    新闻话题自动发现方法
    10.
    发明公开

    公开(公告)号:CN109710728A

    公开(公告)日:2019-05-03

    申请号:CN201811417992.2

    申请日:2018-11-26

    Abstract: 本发明公开的一种新闻话题自动发现方法,旨在提供一种能够提高新闻话题发现的准确性的方法。本发明通过下述技术方案予以实现:首先设置增量聚类相关参数和增量聚类触发参数,对增量数据进行分批次聚类,预处理输入文本,对文章统一文本格式编码,计算文本特征,生成文本特征向量,提取文本特征词,构建文本特征向量集,在批次内先做主题聚类,再做主题内层次聚类,然后计算每一个单点主题与所有聚类的相似度即每一个单点到每一个聚类中心的距离,合并到最大的类簇,将跨批次的聚类互相凝聚起来,完成主题间层次聚类;生成新闻话题并进行新类簇融合,将新类簇质心与已有历史类簇质心进行比较,然后对新增数据聚类结果与已有聚类结果做跨批次融合。

Patent Agency Ranking