文本校对模型训练方法及装置、计算设备

    公开(公告)号:CN114925170A

    公开(公告)日:2022-08-19

    申请号:CN202210577416.4

    申请日:2022-05-25

    IPC分类号: G06F16/33 G06F40/58 G06K9/62

    摘要: 本发明公开了一种文本校对模型训练方法,基于已标注错误类型标注数据集,训练得到数据增强模型;数据增强模型训练输入数据包含错误位置的文本被替换为掩码标记第一向量以及被赋值为错误类型第二向量;基于各个错误类型特征分布和一部分未标注文本数据构建指定错误类型的预测输入数据;将预测输入数据输入给训练得到的数据增强模型,得到预测输出数据;对另一部分未标注文本数据进行随机删除操作;将预测输出数据和随机删除操作所得数据加入到标注数据集中,得到拓展数据集;利用拓展数据集,训练得到文本校对模型。本发明将错误类型作为额外的输入生成指定类型错误文本拓展数据集,减少了训练数据生成的随机性,解决了训练数据数量少的问题。

    文本校对模型训练方法及装置、计算设备

    公开(公告)号:CN114925170B

    公开(公告)日:2023-04-07

    申请号:CN202210577416.4

    申请日:2022-05-25

    摘要: 本发明公开了一种文本校对模型训练方法,基于已标注错误类型标注数据集,训练得到数据增强模型;数据增强模型训练输入数据包含错误位置的文本被替换为掩码标记第一向量以及被赋值为错误类型第二向量;基于各个错误类型特征分布和一部分未标注文本数据构建指定错误类型的预测输入数据;将预测输入数据输入给训练得到的数据增强模型,得到预测输出数据;对另一部分未标注文本数据进行随机删除操作;将预测输出数据和随机删除操作所得数据加入到标注数据集中,得到拓展数据集;利用拓展数据集,训练得到文本校对模型。本发明将错误类型作为额外的输入生成指定类型错误文本拓展数据集,减少了训练数据生成的随机性,解决了训练数据数量少的问题。

    基于价值量表的文本价值计算方法及装置

    公开(公告)号:CN116681056B

    公开(公告)日:2024-01-26

    申请号:CN202310596067.5

    申请日:2023-05-24

    摘要: 本发明实施例公开了一种基于价值量表的文本价值计算方法及装置,方法包括:对文本进行分词处理,得到包含多个关键词的关键词集合;基于预设价值量表,遍历关键词集合,查询与关键词匹配的节点关键词,得到不同级别的匹配节点集合;其中,预设价值量表包括预设多个级别节点;每个节点包括节点关键词;根据不同级别的匹配节点集合的数量及权重,计算得到文本的价值数据。将文本分词,通过匹配文本中的关键词与预设价值量表中节点关键词,确定文本包含的不同级别的匹配节点集合,进而根据不同级别的匹配节点集合的数量及权重,计算得到文本的价值数据,实现基于预设价值量表来确定文本价值。

    基于价值量表的文本价值计算方法及装置

    公开(公告)号:CN116681056A

    公开(公告)日:2023-09-01

    申请号:CN202310596067.5

    申请日:2023-05-24

    摘要: 本发明实施例公开了一种基于价值量表的文本价值计算方法及装置,方法包括:对文本进行分词处理,得到包含多个关键词的关键词集合;基于预设价值量表,遍历关键词集合,查询与关键词匹配的节点关键词,得到不同级别的匹配节点集合;其中,预设价值量表包括预设多个级别节点;每个节点包括节点关键词;根据不同级别的匹配节点集合的数量及权重,计算得到文本的价值数据。将文本分词,通过匹配文本中的关键词与预设价值量表中节点关键词,确定文本包含的不同级别的匹配节点集合,进而根据不同级别的匹配节点集合的数量及权重,计算得到文本的价值数据,实现基于预设价值量表来确定文本价值。