一种文本数据清洗方法、装置、存储介质及设备

    公开(公告)号:CN117271774A

    公开(公告)日:2023-12-22

    申请号:CN202311317241.4

    申请日:2023-10-11

    Abstract: 本申请公开了一种文本数据清洗方法、装置、存储介质及设备,该方法包括:首先在利用干净类别的文本训练数据训练完文本分类模型后,将目标文本数据和干净类别的文本训练数据输入该模型进行第一次数据清洗,然后判断第一次清洗结果是否满足停止清洗数据的预设条件;若是,则将其作为目标文本数据的清洗结果;若否,则利用干净类别的文本训练数据和清洗后剩余的目标文本数据,对文本分类模型进行第二次训练,并利用更新后的文本分类模型和干净类别的文本训练数据对目标文本数据进行第二次数据清洗,依次类推,直至得到的第M次清洗结果满足停止清洗数据的预设条件,并将第M次清洗结果作为目标文本数据的清洗结果,从而提高了数据清洗效果。

    语义理解方法、装置、电子设备和存储介质

    公开(公告)号:CN119862887A

    公开(公告)日:2025-04-22

    申请号:CN202411787990.8

    申请日:2024-12-06

    Abstract: 本发明提供一种语义理解方法、装置、电子设备和存储介质,其中方法包括:获取待理解文本和标签描述文本;将待理解文本和标签描述文本输入至语义理解模型,得到语义理解模型输出的待理解文本的语义理解结果;语义理解模型用于对待理解文本和标签描述文本各自的文本表征进行双向语义交互,得到待理解文本和标签描述文本各自的交互语义表征,并基于交互语义表征进行语义对比和实体边界回归,得到语义理解结果。本发明提供的方法、装置、电子设备和存储介质,将双向语义交互与实体边界回归相结合,有效保证了语义理解在通用性、精度和响应速度上的优化和平衡。

    文本分类方法、装置、电子设备和存储介质

    公开(公告)号:CN119848252A

    公开(公告)日:2025-04-18

    申请号:CN202411903109.6

    申请日:2024-12-23

    Abstract: 本发明提供一种文本分类方法、装置、电子设备和存储介质,所述方法包括:提取待分类文本的语义特征;基于重点分词先验信息,增强待分类文本中的重点分词特征,得到重点增强特征;基于边缘分词先验信息,弱化待分类文本中的边缘分词特征,得到边缘弱化特征;基于语义特征、重点增强特征以及边缘弱化特征,确定待分类文本的分类结果。本发明在提取语义特征的基础上,不仅可以基于重点增强特征准确捕捉对待分类文本分类有重要影响的关键信息,又可以基于弱化边缘特征忽略边缘信息影响,减少边缘分词对分类结果的干扰,进一步提高文本分类的准确性。

    技能类别分析方法、装置、设备及可读存储介质

    公开(公告)号:CN116775886B

    公开(公告)日:2025-02-14

    申请号:CN202310840870.9

    申请日:2023-07-10

    Abstract: 本申请公开了一种技能类别分析方法、装置、设备及可读存储介质,在利用技能类别分析模型确定用户输入信息属于每个技能类别的概率时,可以利用训练数据对应的各个技能类别的技能意图分类结果作为先验信息提升技能类别分析模型输出概率的准确度,或者,利用用户输入信息对应的各个技能类别的技能意图分类结果作为辅助信息对技能类别分析模型输出概率进行调优,使得得到的用户输入信息属于每个技能类别的概率能够准确表征用户输入信息可能属于某个技能类别的程度,因此,基于上述概率可以准确确定用户输入信息所属技能类别,进而能够从用户输入信息可能产生的多种对应不同技能类别的技能意图中准确确定出用户的实际技能意图。

    一种文本数据清洗方法、装置、存储介质及设备

    公开(公告)号:CN117271774B

    公开(公告)日:2025-04-01

    申请号:CN202311317241.4

    申请日:2023-10-11

    Abstract: 本申请公开了一种文本数据清洗方法、装置、存储介质及设备,该方法包括:首先在利用干净类别的文本训练数据训练完文本分类模型后,将目标文本数据和干净类别的文本训练数据输入该模型进行第一次数据清洗,然后判断第一次清洗结果是否满足停止清洗数据的预设条件;若是,则将其作为目标文本数据的清洗结果;若否,则利用干净类别的文本训练数据和清洗后剩余的目标文本数据,对文本分类模型进行第二次训练,并利用更新后的文本分类模型和干净类别的文本训练数据对目标文本数据进行第二次数据清洗,依次类推,直至得到的第M次清洗结果满足停止清洗数据的预设条件,并将第M次清洗结果作为目标文本数据的清洗结果,从而提高了数据清洗效果。

    技能类别分析方法、装置、设备及可读存储介质

    公开(公告)号:CN116775886A

    公开(公告)日:2023-09-19

    申请号:CN202310840870.9

    申请日:2023-07-10

    Abstract: 本申请公开了一种技能类别分析方法、装置、设备及可读存储介质,在利用技能类别分析模型确定用户输入信息属于每个技能类别的概率时,可以利用训练数据对应的各个技能类别的技能意图分类结果作为先验信息提升技能类别分析模型输出概率的准确度,或者,利用用户输入信息对应的各个技能类别的技能意图分类结果作为辅助信息对技能类别分析模型输出概率进行调优,使得得到的用户输入信息属于每个技能类别的概率能够准确表征用户输入信息可能属于某个技能类别的程度,因此,基于上述概率可以准确确定用户输入信息所属技能类别,进而能够从用户输入信息可能产生的多种对应不同技能类别的技能意图中准确确定出用户的实际技能意图。

Patent Agency Ranking