一种文本数据清洗方法、装置、存储介质及设备

    公开(公告)号:CN117271774A

    公开(公告)日:2023-12-22

    申请号:CN202311317241.4

    申请日:2023-10-11

    Abstract: 本申请公开了一种文本数据清洗方法、装置、存储介质及设备,该方法包括:首先在利用干净类别的文本训练数据训练完文本分类模型后,将目标文本数据和干净类别的文本训练数据输入该模型进行第一次数据清洗,然后判断第一次清洗结果是否满足停止清洗数据的预设条件;若是,则将其作为目标文本数据的清洗结果;若否,则利用干净类别的文本训练数据和清洗后剩余的目标文本数据,对文本分类模型进行第二次训练,并利用更新后的文本分类模型和干净类别的文本训练数据对目标文本数据进行第二次数据清洗,依次类推,直至得到的第M次清洗结果满足停止清洗数据的预设条件,并将第M次清洗结果作为目标文本数据的清洗结果,从而提高了数据清洗效果。

    文本语义理解方法、装置、设备及存储介质

    公开(公告)号:CN114970541A

    公开(公告)日:2022-08-30

    申请号:CN202210513371.4

    申请日:2022-05-12

    Abstract: 本申请公开了一种文本语义理解方法、装置、设备及存储介质,本申请可以将源语种的目标文本翻译为目标语种的翻译后文本,其中源语种可以是小语种,目标语种可以是多资源样本语种,进而可以利用目标语种下较好的语义理解模型完成对源语种的目标文本的语义理解任务,解决了小语种文本语义理解结果准确性不高的问题。可知的,目标文本中的实体词对于语义理解过程是很重要的信息,本申请在将源语种的目标文本翻译为目标语种之前,首先识别出目标文本中的实体词并确定其在目标语种下的映射实体词,避免在翻译过程中出现实体丢失的问题,在此情况下,可以基于映射实体词及翻译后文本确定语义理解结果,能够进一步提升语义理解结果的准确性。

    语义理解方法、装置、电子设备和存储介质

    公开(公告)号:CN119862887A

    公开(公告)日:2025-04-22

    申请号:CN202411787990.8

    申请日:2024-12-06

    Abstract: 本发明提供一种语义理解方法、装置、电子设备和存储介质,其中方法包括:获取待理解文本和标签描述文本;将待理解文本和标签描述文本输入至语义理解模型,得到语义理解模型输出的待理解文本的语义理解结果;语义理解模型用于对待理解文本和标签描述文本各自的文本表征进行双向语义交互,得到待理解文本和标签描述文本各自的交互语义表征,并基于交互语义表征进行语义对比和实体边界回归,得到语义理解结果。本发明提供的方法、装置、电子设备和存储介质,将双向语义交互与实体边界回归相结合,有效保证了语义理解在通用性、精度和响应速度上的优化和平衡。

    文本分类方法、装置、电子设备和存储介质

    公开(公告)号:CN119848252A

    公开(公告)日:2025-04-18

    申请号:CN202411903109.6

    申请日:2024-12-23

    Abstract: 本发明提供一种文本分类方法、装置、电子设备和存储介质,所述方法包括:提取待分类文本的语义特征;基于重点分词先验信息,增强待分类文本中的重点分词特征,得到重点增强特征;基于边缘分词先验信息,弱化待分类文本中的边缘分词特征,得到边缘弱化特征;基于语义特征、重点增强特征以及边缘弱化特征,确定待分类文本的分类结果。本发明在提取语义特征的基础上,不仅可以基于重点增强特征准确捕捉对待分类文本分类有重要影响的关键信息,又可以基于弱化边缘特征忽略边缘信息影响,减少边缘分词对分类结果的干扰,进一步提高文本分类的准确性。

    技能类别分析方法、装置、设备及可读存储介质

    公开(公告)号:CN116775886B

    公开(公告)日:2025-02-14

    申请号:CN202310840870.9

    申请日:2023-07-10

    Abstract: 本申请公开了一种技能类别分析方法、装置、设备及可读存储介质,在利用技能类别分析模型确定用户输入信息属于每个技能类别的概率时,可以利用训练数据对应的各个技能类别的技能意图分类结果作为先验信息提升技能类别分析模型输出概率的准确度,或者,利用用户输入信息对应的各个技能类别的技能意图分类结果作为辅助信息对技能类别分析模型输出概率进行调优,使得得到的用户输入信息属于每个技能类别的概率能够准确表征用户输入信息可能属于某个技能类别的程度,因此,基于上述概率可以准确确定用户输入信息所属技能类别,进而能够从用户输入信息可能产生的多种对应不同技能类别的技能意图中准确确定出用户的实际技能意图。

    一种文本数据清洗方法、装置、存储介质及设备

    公开(公告)号:CN117271774B

    公开(公告)日:2025-04-01

    申请号:CN202311317241.4

    申请日:2023-10-11

    Abstract: 本申请公开了一种文本数据清洗方法、装置、存储介质及设备,该方法包括:首先在利用干净类别的文本训练数据训练完文本分类模型后,将目标文本数据和干净类别的文本训练数据输入该模型进行第一次数据清洗,然后判断第一次清洗结果是否满足停止清洗数据的预设条件;若是,则将其作为目标文本数据的清洗结果;若否,则利用干净类别的文本训练数据和清洗后剩余的目标文本数据,对文本分类模型进行第二次训练,并利用更新后的文本分类模型和干净类别的文本训练数据对目标文本数据进行第二次数据清洗,依次类推,直至得到的第M次清洗结果满足停止清洗数据的预设条件,并将第M次清洗结果作为目标文本数据的清洗结果,从而提高了数据清洗效果。

    技能类别分析方法、装置、设备及可读存储介质

    公开(公告)号:CN116775886A

    公开(公告)日:2023-09-19

    申请号:CN202310840870.9

    申请日:2023-07-10

    Abstract: 本申请公开了一种技能类别分析方法、装置、设备及可读存储介质,在利用技能类别分析模型确定用户输入信息属于每个技能类别的概率时,可以利用训练数据对应的各个技能类别的技能意图分类结果作为先验信息提升技能类别分析模型输出概率的准确度,或者,利用用户输入信息对应的各个技能类别的技能意图分类结果作为辅助信息对技能类别分析模型输出概率进行调优,使得得到的用户输入信息属于每个技能类别的概率能够准确表征用户输入信息可能属于某个技能类别的程度,因此,基于上述概率可以准确确定用户输入信息所属技能类别,进而能够从用户输入信息可能产生的多种对应不同技能类别的技能意图中准确确定出用户的实际技能意图。

    多语种语言模型的训练方法、装置、设备及存储介质

    公开(公告)号:CN115587592A

    公开(公告)日:2023-01-10

    申请号:CN202211399876.9

    申请日:2022-11-09

    Inventor: 张志庆 孙庆华

    Abstract: 本申请提供了多语种语言模型的训练方法、装置、设备及存储介质,具体实现方案为:获取目标领域的第一平行语料数据;基于第一平行语料数据与目标领域的相关度,从确定第一平行语料数据中确定出符合预设第一要求要求的分词,作为对应的第一预测语料数据;利用第一预测语料数据对第一平行语料数据中的第一预测语料数据进行遮挡处理,得到第一平行语料训练数据;基于第一平行语料训练数据对训练预设语言模型进行训练,得到目标领域的多语种语言模型。根据本申请的技术方案,能够使得多语种语言模型在目标领域上具备较好的跨语种能力。

Patent Agency Ranking