-
公开(公告)号:CN117271774A
公开(公告)日:2023-12-22
申请号:CN202311317241.4
申请日:2023-10-11
Applicant: 吉林科讯信息科技有限公司
IPC: G06F16/35 , G06F40/289 , G06N3/045
Abstract: 本申请公开了一种文本数据清洗方法、装置、存储介质及设备,该方法包括:首先在利用干净类别的文本训练数据训练完文本分类模型后,将目标文本数据和干净类别的文本训练数据输入该模型进行第一次数据清洗,然后判断第一次清洗结果是否满足停止清洗数据的预设条件;若是,则将其作为目标文本数据的清洗结果;若否,则利用干净类别的文本训练数据和清洗后剩余的目标文本数据,对文本分类模型进行第二次训练,并利用更新后的文本分类模型和干净类别的文本训练数据对目标文本数据进行第二次数据清洗,依次类推,直至得到的第M次清洗结果满足停止清洗数据的预设条件,并将第M次清洗结果作为目标文本数据的清洗结果,从而提高了数据清洗效果。
-
公开(公告)号:CN119862887A
公开(公告)日:2025-04-22
申请号:CN202411787990.8
申请日:2024-12-06
Applicant: 吉林科讯信息科技有限公司
Abstract: 本发明提供一种语义理解方法、装置、电子设备和存储介质,其中方法包括:获取待理解文本和标签描述文本;将待理解文本和标签描述文本输入至语义理解模型,得到语义理解模型输出的待理解文本的语义理解结果;语义理解模型用于对待理解文本和标签描述文本各自的文本表征进行双向语义交互,得到待理解文本和标签描述文本各自的交互语义表征,并基于交互语义表征进行语义对比和实体边界回归,得到语义理解结果。本发明提供的方法、装置、电子设备和存储介质,将双向语义交互与实体边界回归相结合,有效保证了语义理解在通用性、精度和响应速度上的优化和平衡。
-
公开(公告)号:CN119848252A
公开(公告)日:2025-04-18
申请号:CN202411903109.6
申请日:2024-12-23
Applicant: 吉林科讯信息科技有限公司
IPC: G06F16/35 , G06F40/30 , G06F40/284 , G06F18/213 , G06F18/25
Abstract: 本发明提供一种文本分类方法、装置、电子设备和存储介质,所述方法包括:提取待分类文本的语义特征;基于重点分词先验信息,增强待分类文本中的重点分词特征,得到重点增强特征;基于边缘分词先验信息,弱化待分类文本中的边缘分词特征,得到边缘弱化特征;基于语义特征、重点增强特征以及边缘弱化特征,确定待分类文本的分类结果。本发明在提取语义特征的基础上,不仅可以基于重点增强特征准确捕捉对待分类文本分类有重要影响的关键信息,又可以基于弱化边缘特征忽略边缘信息影响,减少边缘分词对分类结果的干扰,进一步提高文本分类的准确性。
-
公开(公告)号:CN116775886B
公开(公告)日:2025-02-14
申请号:CN202310840870.9
申请日:2023-07-10
Applicant: 吉林科讯信息科技有限公司 , 合肥智能语音创新发展有限公司 , 科大讯飞股份有限公司
IPC: G06F16/35 , G06F18/241 , G06F40/205
Abstract: 本申请公开了一种技能类别分析方法、装置、设备及可读存储介质,在利用技能类别分析模型确定用户输入信息属于每个技能类别的概率时,可以利用训练数据对应的各个技能类别的技能意图分类结果作为先验信息提升技能类别分析模型输出概率的准确度,或者,利用用户输入信息对应的各个技能类别的技能意图分类结果作为辅助信息对技能类别分析模型输出概率进行调优,使得得到的用户输入信息属于每个技能类别的概率能够准确表征用户输入信息可能属于某个技能类别的程度,因此,基于上述概率可以准确确定用户输入信息所属技能类别,进而能够从用户输入信息可能产生的多种对应不同技能类别的技能意图中准确确定出用户的实际技能意图。
-
公开(公告)号:CN115858733A
公开(公告)日:2023-03-28
申请号:CN202211682629.X
申请日:2022-12-27
Applicant: 吉林科讯信息科技有限公司 , 科大讯飞(苏州)科技有限公司 , 科大讯飞股份有限公司
IPC: G06F16/33 , G06F40/295 , G06N3/04 , G06N3/096
Abstract: 本申请公开了一种跨语言实体词检索方法、装置、设备及存储介质,本申请预先配置了跨语言实体词检索模型,对于获取的源语种的待检索实体词,以及目标语种的待检索文本,将二者组合输入至跨语言实体词检索模型,模型处理后预测输出待检索文本中与待检索实体词平行的实体词标注结果,也即得到实体词检索结果。本申请配置的端到端的跨语言实体词检索模型,其处理流程更加简单,且无需像现有技术那样进行两阶段处理,不需要将源语种的待检索实体词翻译为目标语种,以及进行实体词的匹配操作,可以避免由翻译引擎导致的翻译误差,提升实体词检索结果的准确性。
-
公开(公告)号:CN117271774B
公开(公告)日:2025-04-01
申请号:CN202311317241.4
申请日:2023-10-11
Applicant: 吉林科讯信息科技有限公司
IPC: G06F16/35 , G06F40/289 , G06N3/045
Abstract: 本申请公开了一种文本数据清洗方法、装置、存储介质及设备,该方法包括:首先在利用干净类别的文本训练数据训练完文本分类模型后,将目标文本数据和干净类别的文本训练数据输入该模型进行第一次数据清洗,然后判断第一次清洗结果是否满足停止清洗数据的预设条件;若是,则将其作为目标文本数据的清洗结果;若否,则利用干净类别的文本训练数据和清洗后剩余的目标文本数据,对文本分类模型进行第二次训练,并利用更新后的文本分类模型和干净类别的文本训练数据对目标文本数据进行第二次数据清洗,依次类推,直至得到的第M次清洗结果满足停止清洗数据的预设条件,并将第M次清洗结果作为目标文本数据的清洗结果,从而提高了数据清洗效果。
-
公开(公告)号:CN116775886A
公开(公告)日:2023-09-19
申请号:CN202310840870.9
申请日:2023-07-10
Applicant: 吉林科讯信息科技有限公司 , 合肥智能语音创新发展有限公司 , 科大讯飞股份有限公司
IPC: G06F16/35 , G06F18/241 , G06F40/205
Abstract: 本申请公开了一种技能类别分析方法、装置、设备及可读存储介质,在利用技能类别分析模型确定用户输入信息属于每个技能类别的概率时,可以利用训练数据对应的各个技能类别的技能意图分类结果作为先验信息提升技能类别分析模型输出概率的准确度,或者,利用用户输入信息对应的各个技能类别的技能意图分类结果作为辅助信息对技能类别分析模型输出概率进行调优,使得得到的用户输入信息属于每个技能类别的概率能够准确表征用户输入信息可能属于某个技能类别的程度,因此,基于上述概率可以准确确定用户输入信息所属技能类别,进而能够从用户输入信息可能产生的多种对应不同技能类别的技能意图中准确确定出用户的实际技能意图。
-
-
-
-
-
-