-
公开(公告)号:CN115240640B
公开(公告)日:2025-02-11
申请号:CN202210852125.1
申请日:2022-07-20
Applicant: 科大讯飞股份有限公司
IPC: G10L15/00 , G10L15/02 , G10L15/06 , G06F40/211 , G06F40/242 , G06F40/263
Abstract: 本申请公开了一种方言语音识别方法、装置、设备及存储介质,本申请预先配置了方言语音识别模型,该模型为,以各类型语言(包括普通话及各类型方言)的语音样本作为训练样本,以该训练样本的识别文本经句法分析及phone级标注后的携带有句法信息的phone级标注文本作为标签训练得到,相比于现有的字级端到端模型,本申请基于音素phone级进行建模,从发音层面实现了提高各类型方言之间以及方言与普通话之间建模单元的区分性、并减少各方言之间串扰度,从而提升各方言的识别效果。进一步地,在标注上引入了句法信息,能够让模型学习到各方言的语法层面的信息,进一步提升各方言的识别效果,此外,由于添加了语法信息,还可以提升模型识别文本的可阅读性。
-
公开(公告)号:CN118692469A
公开(公告)日:2024-09-24
申请号:CN202410673070.7
申请日:2024-05-28
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种标注文本的处理方法、装置、设备、介质及产品,其中,该方法包括:获取原始标注文本和原始标注文本对应的音频数据,原始标注文本中不包括目标符号;对音频数据进行端到端的语音识别,得到音频数据对应的第一音频识别结果,第一音频识别结果中包括目标符号;基于第一音频识别结果,对原始标注文本回填目标符号,得到目标标注文本,目标标注文本用于语音识别模型的端到端训练。该方案能够提高构建端到端标注文本的准确度和召回率。
-
公开(公告)号:CN117743636A
公开(公告)日:2024-03-22
申请号:CN202311378717.5
申请日:2023-10-23
Applicant: 科大讯飞股份有限公司
IPC: G06F16/735 , G06F16/75 , G06F16/783 , G06Q30/02 , G06F40/30 , G10L13/08 , G10L15/26
Abstract: 本申请公开了一种视频分析方法及相关装置、设备和存储介质,其中,视频分析方法包括:基于表征待分析目标的关键词,检索得到关于营销待分析目标的候选视频;其中,待分析目标包括目标产品、目标品牌中至少一者;响应于对候选视频的选择指令,确定被选择的候选视频作为目标视频,并确定目标视频中待分析的视频片段;基于视频片段进行分析,得到待分析目标的营销总结。上述方案,能够在尽可能地确保营销总结的针对性前提下,提升生成营销总结的自动化程度,以提升营销总结的生成效率。
-
公开(公告)号:CN116821323A
公开(公告)日:2023-09-29
申请号:CN202310492873.8
申请日:2023-04-28
Applicant: 科大讯飞股份有限公司
IPC: G06F16/34 , G10L15/26 , G06F16/33 , G06F40/186 , G06F3/0482 , G06F3/04842
Abstract: 本申请公开了一种纪要生成方法、系统及相关装置,该方法包括:获取基于音频数据得到的参考文本;响应于获取到输入内容,基于所述输入内容得到至少一条概要文本;其中,所述输入内容包括与所述音频数据相关的手写内容和图像内容中的至少一种;基于所述概要文本和所述参考文本中的至少一种,得到纪要文本;其中,所述纪要文本至少包括从所述参考文本中得到的与所述概要文本相匹配的重点文本。通过上述方式,本申请能够提高用户对当前场景下内容进行总结的效率和准确率。
-
公开(公告)号:CN116741178A
公开(公告)日:2023-09-12
申请号:CN202310492855.X
申请日:2023-04-28
Applicant: 科大讯飞股份有限公司
IPC: G10L15/26 , G10L15/18 , G10L15/16 , G10L15/06 , G06F40/30 , G06F16/332 , G06F40/186
Abstract: 本申请公开了一种文稿生成方法、装置、设备和存储介质,其中,文稿生成方法包括:基于用户关于期望输出文稿的语音数据,得到对应的识别文本;基于识别文本进行分析,得到期望输出文稿的关键要素;其中,关键要素包括至少一个语义级别的子要素;基于关键要素,生成第一目标文稿。上述方案,能够缩短用户获取文稿的时间,提高用户工作效率。
-
公开(公告)号:CN110162801A
公开(公告)日:2019-08-23
申请号:CN201910456776.7
申请日:2019-05-29
Applicant: 科大讯飞股份有限公司
IPC: G06F17/28 , G06F16/33 , G06F16/335
Abstract: 本申请实施例公开了一种文本处理方法、装置、设备及可读存储介质,获得源语言文本和目标语言内容片段后,根据目标语言内容片段与源语言文本的内容相关的特征信息,在源语言文本中确定与目标语言内容片段对应的源语言文本片段。基于目标语言内容片段与源语言文本片段的对应关系,可以为用户提供优化服务,如在翻译场景下,机器对发言人的语音进行识别得到源语言文本,翻译人员对发言人的语音进行翻译,得到目标语言内容片段,通过本案可以在翻译过程实时给出源语言文本中与目标语音内容片段对应的源语言文本片段,基于此可以对翻译人员给出翻译进度提示,避免遗漏的情况,为用户提供更优化服务。
-
公开(公告)号:CN109446508A
公开(公告)日:2019-03-08
申请号:CN201811220743.4
申请日:2018-10-19
Applicant: 科大讯飞股份有限公司
IPC: G06F17/25
Abstract: 本申请提供了一种文本规整方法、装置、设备及可读存储介质,方法包括:获取待规整文本;将待规整文本的文本内容处理成多个文本单元,获得预处理文本,预处理文本中的一个文本单元为一个词或字;基于预处理文本中每个文本单元对应的规整类别信息,对待规整文本中的待规整文本单元进行规整,获得规整后的文本。本申请提供的文本规整方法可将与数字相关的汉字规整为阿拉伯数字或特殊符号,从而得到便于用户阅读和理解的文本数据,本申请提供的文本规整方法易于实现,且规整效果较好。
-
公开(公告)号:CN115497460B
公开(公告)日:2025-05-09
申请号:CN202211096150.8
申请日:2022-09-08
Applicant: 科大讯飞股份有限公司
IPC: G10L15/06 , G10L15/02 , G10L15/08 , G10L13/08 , G06N20/00 , G06N7/01 , G06N3/047 , G06F40/279 , G06F16/334
Abstract: 本申请提供了音频识别方法、模型的训练方法、装置、设备及存储介质,具体实现方案为:在第一音频数据集中确定低频三音素;基于低频三音素,从预设语料库中确定包含低频三音素的低频文本;基于低频文本训练音频识别模型。根据本申请的技术方案,能够有效提升训练数据中的低频数据内容的多样性和准确性。
-
公开(公告)号:CN119400179A
公开(公告)日:2025-02-07
申请号:CN202411493818.1
申请日:2024-10-24
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了语音翻译方法及装置、电子设备以及计算机可读存储介质,语音翻译方法包括:获取到待翻译语音的第一语音编码向量;对第一语音编码向量进行实时顺滑处理,得到第一语音编码向量对应的标记信息与分段信息;基于第一语音编码向量、标记信息、分段信息与至少一个提示词生成具有要点信息且顺滑的第二语音编码向量;对第二语音编码向量进行解码,得到目标语音;其中,待翻译语音与目标语音对应的语种不同。本申请能够基于要点信息对源语音进行翻译,从而提高翻译的流畅性与准确性,继而提高用户体验。
-
公开(公告)号:CN116630981A
公开(公告)日:2023-08-22
申请号:CN202211675358.5
申请日:2022-12-26
Applicant: 科大讯飞股份有限公司
IPC: G06V30/14 , G06V30/148 , G06V30/18 , G06V30/19
Abstract: 本发明提供了一种笔记总结生成方法、装置、设备及存储介质,方法包括:获取目标文本图片;从目标文本图片中分割出若干目标区域,并确定每个目标区域的类别,其中,若干目标区域包括若干文本区域,每个文本区域为原文本区域、用户书写区域、用户标记区域中的一种;对分割出的每个文本区域进行文本识别,得到若干文本区域分别对应的识别结果;以用户书写区域对应的识别结果和/或用户标记区域对应的识别结果为指导信息,结合原文本区域对应的识别结果,生成目标用户的笔记总结。本发明可根据文本图片自动生成用户的笔记总结,相比于人工的笔记整理方式,大大降低了耗时,提高了笔记整理的效率,同时避免人为因素带来的影响。
-
-
-
-
-
-
-
-
-