-
公开(公告)号:CN119862887A
公开(公告)日:2025-04-22
申请号:CN202411787990.8
申请日:2024-12-06
Applicant: 吉林科讯信息科技有限公司
Abstract: 本发明提供一种语义理解方法、装置、电子设备和存储介质,其中方法包括:获取待理解文本和标签描述文本;将待理解文本和标签描述文本输入至语义理解模型,得到语义理解模型输出的待理解文本的语义理解结果;语义理解模型用于对待理解文本和标签描述文本各自的文本表征进行双向语义交互,得到待理解文本和标签描述文本各自的交互语义表征,并基于交互语义表征进行语义对比和实体边界回归,得到语义理解结果。本发明提供的方法、装置、电子设备和存储介质,将双向语义交互与实体边界回归相结合,有效保证了语义理解在通用性、精度和响应速度上的优化和平衡。
-
公开(公告)号:CN119848252A
公开(公告)日:2025-04-18
申请号:CN202411903109.6
申请日:2024-12-23
Applicant: 吉林科讯信息科技有限公司
IPC: G06F16/35 , G06F40/30 , G06F40/284 , G06F18/213 , G06F18/25
Abstract: 本发明提供一种文本分类方法、装置、电子设备和存储介质,所述方法包括:提取待分类文本的语义特征;基于重点分词先验信息,增强待分类文本中的重点分词特征,得到重点增强特征;基于边缘分词先验信息,弱化待分类文本中的边缘分词特征,得到边缘弱化特征;基于语义特征、重点增强特征以及边缘弱化特征,确定待分类文本的分类结果。本发明在提取语义特征的基础上,不仅可以基于重点增强特征准确捕捉对待分类文本分类有重要影响的关键信息,又可以基于弱化边缘特征忽略边缘信息影响,减少边缘分词对分类结果的干扰,进一步提高文本分类的准确性。
-
公开(公告)号:CN116775886B
公开(公告)日:2025-02-14
申请号:CN202310840870.9
申请日:2023-07-10
Applicant: 吉林科讯信息科技有限公司 , 合肥智能语音创新发展有限公司 , 科大讯飞股份有限公司
IPC: G06F16/35 , G06F18/241 , G06F40/205
Abstract: 本申请公开了一种技能类别分析方法、装置、设备及可读存储介质,在利用技能类别分析模型确定用户输入信息属于每个技能类别的概率时,可以利用训练数据对应的各个技能类别的技能意图分类结果作为先验信息提升技能类别分析模型输出概率的准确度,或者,利用用户输入信息对应的各个技能类别的技能意图分类结果作为辅助信息对技能类别分析模型输出概率进行调优,使得得到的用户输入信息属于每个技能类别的概率能够准确表征用户输入信息可能属于某个技能类别的程度,因此,基于上述概率可以准确确定用户输入信息所属技能类别,进而能够从用户输入信息可能产生的多种对应不同技能类别的技能意图中准确确定出用户的实际技能意图。
-
公开(公告)号:CN117271774A
公开(公告)日:2023-12-22
申请号:CN202311317241.4
申请日:2023-10-11
Applicant: 吉林科讯信息科技有限公司
IPC: G06F16/35 , G06F40/289 , G06N3/045
Abstract: 本申请公开了一种文本数据清洗方法、装置、存储介质及设备,该方法包括:首先在利用干净类别的文本训练数据训练完文本分类模型后,将目标文本数据和干净类别的文本训练数据输入该模型进行第一次数据清洗,然后判断第一次清洗结果是否满足停止清洗数据的预设条件;若是,则将其作为目标文本数据的清洗结果;若否,则利用干净类别的文本训练数据和清洗后剩余的目标文本数据,对文本分类模型进行第二次训练,并利用更新后的文本分类模型和干净类别的文本训练数据对目标文本数据进行第二次数据清洗,依次类推,直至得到的第M次清洗结果满足停止清洗数据的预设条件,并将第M次清洗结果作为目标文本数据的清洗结果,从而提高了数据清洗效果。
-
公开(公告)号:CN114970541A
公开(公告)日:2022-08-30
申请号:CN202210513371.4
申请日:2022-05-12
Applicant: 吉林科讯信息科技有限公司
IPC: G06F40/30 , G06F40/279 , G06F40/56 , G06F40/253
Abstract: 本申请公开了一种文本语义理解方法、装置、设备及存储介质,本申请可以将源语种的目标文本翻译为目标语种的翻译后文本,其中源语种可以是小语种,目标语种可以是多资源样本语种,进而可以利用目标语种下较好的语义理解模型完成对源语种的目标文本的语义理解任务,解决了小语种文本语义理解结果准确性不高的问题。可知的,目标文本中的实体词对于语义理解过程是很重要的信息,本申请在将源语种的目标文本翻译为目标语种之前,首先识别出目标文本中的实体词并确定其在目标语种下的映射实体词,避免在翻译过程中出现实体丢失的问题,在此情况下,可以基于映射实体词及翻译后文本确定语义理解结果,能够进一步提升语义理解结果的准确性。
-
公开(公告)号:CN114327090A
公开(公告)日:2022-04-12
申请号:CN202111666617.3
申请日:2021-12-31
Applicant: 吉林科讯信息科技有限公司
Inventor: 周锋
IPC: G06F3/023 , G06F40/151 , G06F40/211 , G06F40/284 , G06F40/289
Abstract: 本申请公开了日文输入方法以及相关装置、设备,其中,日文输入方法包括:获取到用户输入的整句日文注音数据;对整句日文注音数据进行音节切分,得到整句日文注音数据中各单字的注音数据;基于各单字的注音数据利用音字转换网络进行转换,得到对应的至少一个日文整句以及各日文整句的组合概率;基于组合概率将各日文整句依次进行排序后输出;其中,音字转换网络是利用多个日文整句样本、日文整句样本中各个字的注音数据和对应的字进行构建得到的。上述方案,能够提高日文输入效率。
-
公开(公告)号:CN113160800A
公开(公告)日:2021-07-23
申请号:CN202110158767.7
申请日:2021-02-04
Applicant: 吉林科讯信息科技有限公司
Abstract: 本申请公开了语音数据标注方法及电子设备、存储装置,该方法包括:获取第一语音数据中的高混淆度数据,高混淆度数据为混淆度值超过阈值的数据;提取高混淆度数据的语义特征,并获取与语义特征接近的多个近似数据;利用第一意图分类模型对近似数据进行预测,以获得近似数据的意图分类结果;将高混淆度数据所标注的意图修正为近似数据的意图分类结果中占比达到预设比值的意图,以得到修正后的第一语音数据;利用修正后的第一语音数据对第一意图分类模型进行训练,以获得第二意图分类模型;利用第二意图分类模型对第二语音数据进行预测,以获得第二语音数据对应的意图分类结果。上述方案,能够实现语音数据进行意图标注的标准化,提高标注的准确率。
-
公开(公告)号:CN114327090B
公开(公告)日:2024-11-29
申请号:CN202111666617.3
申请日:2021-12-31
Applicant: 吉林科讯信息科技有限公司
Inventor: 周锋
IPC: G06F3/023 , G06F40/151 , G06F40/211 , G06F40/284 , G06F40/289
Abstract: 本申请公开了日文输入方法以及相关装置、设备,其中,日文输入方法包括:获取到用户输入的整句日文注音数据;对整句日文注音数据进行音节切分,得到整句日文注音数据中各单字的注音数据;基于各单字的注音数据利用音字转换网络进行转换,得到对应的至少一个日文整句以及各日文整句的组合概率;基于组合概率将各日文整句依次进行排序后输出;其中,音字转换网络是利用多个日文整句样本、日文整句样本中各个字的注音数据和对应的字进行构建得到的。上述方案,能够提高日文输入效率。
-
公开(公告)号:CN112700768B
公开(公告)日:2024-04-26
申请号:CN202011487548.5
申请日:2020-12-16
Applicant: 科大讯飞股份有限公司 , 吉林科讯信息科技有限公司
Abstract: 本申请公开了一种语音识别方法以及电子设备、存储装置,其中,语音识别方法包括:识别用户的语音指令,得到一个第一候选文本和至少一个第二候选文本;其中,第二候选文本的识别置信度与第一候选文本的识别置信度符合预设关系;响应于第一候选文本的第一语义理解结果不满足预设结果条件,更新第二候选文本的识别置信度;基于识别置信度,获取第二候选文本的第二语义理解结果,并利用第二语义理解结果,得到语音指令的识别结果。上述方案,能够提高语音识别的准确性和鲁棒性。
-
公开(公告)号:CN115858733A
公开(公告)日:2023-03-28
申请号:CN202211682629.X
申请日:2022-12-27
Applicant: 吉林科讯信息科技有限公司 , 科大讯飞(苏州)科技有限公司 , 科大讯飞股份有限公司
IPC: G06F16/33 , G06F40/295 , G06N3/04 , G06N3/096
Abstract: 本申请公开了一种跨语言实体词检索方法、装置、设备及存储介质,本申请预先配置了跨语言实体词检索模型,对于获取的源语种的待检索实体词,以及目标语种的待检索文本,将二者组合输入至跨语言实体词检索模型,模型处理后预测输出待检索文本中与待检索实体词平行的实体词标注结果,也即得到实体词检索结果。本申请配置的端到端的跨语言实体词检索模型,其处理流程更加简单,且无需像现有技术那样进行两阶段处理,不需要将源语种的待检索实体词翻译为目标语种,以及进行实体词的匹配操作,可以避免由翻译引擎导致的翻译误差,提升实体词检索结果的准确性。
-
-
-
-
-
-
-
-
-