一种基于自监督训练的弱监督文本分类方法、系统和装置

    公开(公告)号:CN115080749A

    公开(公告)日:2022-09-20

    申请号:CN202210980845.6

    申请日:2022-08-16

    Abstract: 本发明公开了一种基于自监督训练的弱监督文本分类方法、系统和装置,包括如下步骤:S1:获取待标注文本数据和对应的类别标签集合;S2:获取预训练模型;S3:将预训练模型部分权重迁移至文本分类模型;S4:通过自监督伪标策略获得文本分类伪标签;本发明提供了一种基于自监督训练的弱监督文本分类方法,更贴近于文本分类实际应用场景,用户只需提供待标注数据和类别标签集合即可,极大地减少了文本数据标注成本。目前已有较多科技巨头公司开源了各种预训练自然语言模型,这些模型已提前学习到了海量信息中的通识知识,保证了分类精度。通过采用迁移学习方法和自监督训练策略,进一步提高了分类效率和精度。

    一种面向弱监督文本分类系统、方法和装置

    公开(公告)号:CN114647732A

    公开(公告)日:2022-06-21

    申请号:CN202210559452.8

    申请日:2022-05-23

    Abstract: 本发明公开了一种面向弱监督文本分类系统、方法和装置,包括以下模块:获取模块:从数据库中获取用户上传的待标注文本数据和提供的类别标签集合;文本分类模块:根据获取模块中用户上传的待标注文本数据,确定预训练自然语言模型,使用确定模型对待标注文本数据进行分类输出标注结果;文本标注模块:根据文本分类模块输出的标注结果,生成与待标注文本数据相对应的标注结果,从而完成对所述待标注文本数据的标注,本发明提供了一种面向弱监督文本分类系统,为解决文本分类问题提供一种新的解决思路,即用户只需提供待标注文本数据和类别标签集合,便可实现高准确率的标注结果,极大地减少了文本数据标注成本。

    一种基于带噪标签学习的弱监督文本分类方法和装置

    公开(公告)号:CN115080748B

    公开(公告)日:2022-11-11

    申请号:CN202210980591.8

    申请日:2022-08-16

    Abstract: 本发明公开了一种基于带噪标签学习的弱监督文本分类方法和装置,包括如下步骤:S1:获取待标注文本和类别标签集合;S2:确定预训练自然语言模型;S3:获得待标注文本伪标签;S4:初始化文本分类模型,基于伪标签计算分类损失函数;S5:通过带噪标签损失筛选方法得到高置信度数据:将所有待标注文本的分类损失函数按升序排列,筛选前top‑N数据作为高置信度数据;本发明提供了一种基于带噪标签学习的弱监督文本分类方法和装置,解决在仅获取待标注文本和类别标签集合情况下,实现高准确率分类结果,减少文本标注成本。

    一种面向弱监督文本分类系统、方法和装置

    公开(公告)号:CN114647732B

    公开(公告)日:2022-09-06

    申请号:CN202210559452.8

    申请日:2022-05-23

    Abstract: 本发明公开了一种面向弱监督文本分类系统、方法和装置,包括以下模块:获取模块:从数据库中获取用户上传的待标注文本数据和提供的类别标签集合;文本分类模块:根据获取模块中用户上传的待标注文本数据,确定预训练自然语言模型,使用确定模型对待标注文本数据进行分类输出标注结果;文本标注模块:根据文本分类模块输出的标注结果,生成与待标注文本数据相对应的标注结果,从而完成对所述待标注文本数据的标注,本发明提供了一种面向弱监督文本分类系统,为解决文本分类问题提供一种新的解决思路,即用户只需提供待标注文本数据和类别标签集合,便可实现高准确率的标注结果,极大地减少了文本数据标注成本。

    基于融合提示序列的弱监督文本分类方法、系统和装置

    公开(公告)号:CN115080750A

    公开(公告)日:2022-09-20

    申请号:CN202210980846.0

    申请日:2022-08-16

    Abstract: 本发明公开了一种基于融合提示序列的弱监督文本分类方法、系统和装置,包括如下步骤:步骤1:获取待标注文本和类别标签集合;步骤2:对待标注文本增加提示序列,提示序列中引入占位符,所述占位符表示需后序处理以预测该位置单词;本发明基于更符合现实应用的弱监督文本分类场景,极大地减少了文本分类任务中人工的介入,降低了不可避免的人工误差,极大地节约了标注成本,提高了标注效率;在不获得任何标注信息的情况下,通过对文本数据进行有效的预处理,以及充分利用预训练模型输出特征,在不微调超大预训练模型的情况下,实现自动标注精度的大幅度提升。

    应用于社交网络的k边连通分量挖掘系统及挖掘方法

    公开(公告)号:CN111899117B

    公开(公告)日:2024-11-01

    申请号:CN202010747667.3

    申请日:2020-07-29

    Abstract: 本发明提供一种应用于社交网络的基于局部边连接度检测的k边连通分量挖掘系统,其包括层次化图分割计算模组、遍历排序模组、图分割模组、局部边连接度检测模组、节点合并模组及子图剪枝模组。所述层次化图分割计算模组维护一超节点索引。所述遍历排序模组初始化一节点序列,并遍历目标图的节点。所述图分割模组根据节点序列的排序状态分割目标图或子图。所述局部边连接度检测模组检测当前局部子图的k核结构的边连接度值。所述节点合并模组根据所述边连接度值的检测结果确认是否合并节点。所述子图剪枝模组根据所述节点合并模组的计算结果进行子图删除剪枝操作。同时,本发明还提供一种采用上述挖掘系统的挖掘方法。

    基于融合提示序列的弱监督文本分类方法、系统和装置

    公开(公告)号:CN115080750B

    公开(公告)日:2022-11-08

    申请号:CN202210980846.0

    申请日:2022-08-16

    Abstract: 本发明公开了一种基于融合提示序列的弱监督文本分类方法、系统和装置,包括如下步骤:步骤1:获取待标注文本和类别标签集合;步骤2:对待标注文本增加提示序列,提示序列中引入占位符,所述占位符表示需后序处理以预测该位置单词;本发明基于更符合现实应用的弱监督文本分类场景,极大地减少了文本分类任务中人工的介入,降低了不可避免的人工误差,极大地节约了标注成本,提高了标注效率;在不获得任何标注信息的情况下,通过对文本数据进行有效的预处理,以及充分利用预训练模型输出特征,在不微调超大预训练模型的情况下,实现自动标注精度的大幅度提升。

    一种基于自监督训练的弱监督文本分类方法、系统和装置

    公开(公告)号:CN115080749B

    公开(公告)日:2022-11-08

    申请号:CN202210980845.6

    申请日:2022-08-16

    Abstract: 本发明公开了一种基于自监督训练的弱监督文本分类方法、系统和装置,包括如下步骤:S1:获取待标注文本数据和对应的类别标签集合;S2:获取预训练模型;S3:将预训练模型部分权重迁移至文本分类模型;S4:通过自监督伪标策略获得文本分类伪标签;本发明提供了一种基于自监督训练的弱监督文本分类方法,更贴近于文本分类实际应用场景,用户只需提供待标注数据和类别标签集合即可,极大地减少了文本数据标注成本。目前已有较多科技巨头公司开源了各种预训练自然语言模型,这些模型已提前学习到了海量信息中的通识知识,保证了分类精度。通过采用迁移学习方法和自监督训练策略,进一步提高了分类效率和精度。

    一种基于带噪标签学习的弱监督文本分类方法和装置

    公开(公告)号:CN115080748A

    公开(公告)日:2022-09-20

    申请号:CN202210980591.8

    申请日:2022-08-16

    Abstract: 本发明公开了一种基于带噪标签学习的弱监督文本分类方法和装置,包括如下步骤:S1:获取待标注文本和类别标签集合;S2:确定预训练自然语言模型;S3:获得待标注文本伪标签;S4:初始化文本分类模型,基于伪标签计算分类损失函数;S5:通过带噪标签损失筛选方法得到高置信度数据:将所有待标注文本的分类损失函数按升序排列,筛选前top‑N数据作为高置信度数据;本发明提供了一种基于带噪标签学习的弱监督文本分类方法和装置,解决在仅获取待标注文本和类别标签集合情况下,实现高准确率分类结果,减少文本标注成本。

    应用于社交网络的k边连通分量挖掘系统及挖掘方法

    公开(公告)号:CN111899117A

    公开(公告)日:2020-11-06

    申请号:CN202010747667.3

    申请日:2020-07-29

    Abstract: 本发明提供一种应用于社交网络的基于局部边连接度检测的k边连通分量挖掘系统,其包括层次化图分割计算模组、遍历排序模组、图分割模组、局部边连接度检测模组、节点合并模组及子图剪枝模组。所述层次化图分割计算模组维护一超节点索引。所述遍历排序模组初始化一节点序列,并遍历目标图的节点。所述图分割模组根据节点序列的排序状态分割目标图或子图。所述局部边连接度检测模组检测当前局部子图的k核结构的边连接度值。所述节点合并模组根据所述边连接度值的检测结果确认是否合并节点。所述子图剪枝模组根据所述节点合并模组的计算结果进行子图删除剪枝操作。同时,本发明还提供一种采用上述挖掘系统的挖掘方法。

Patent Agency Ranking