-
公开(公告)号:CN118553231A
公开(公告)日:2024-08-27
申请号:CN202410998260.6
申请日:2024-07-24
申请人: 南京听说科技有限公司
摘要: 本发明公开了一种用于多语言的语音识别方法,包括:对采集的多源数字语音信号进行预处理和特征提取,得到特征向量;将所述特征向量输入声学模型中进行解码处理,得到关于所述语音信号的文本表示;将所述文本表示输入自然语言处理模型中进行语法、语义的优化调整,得到由子序列构成的知识表示;对所述知识表示进行格式转换和纠错处理,输出最终的识别结果。本发明能够更精确地处理多源数字语音信号,并通过先进的声学模型和自然语言处理技术,有效地提高了语音识别的准确性和语义理解能力;同时,所提出的自然语言处理模型针对语法和语义进行深入的优化调整,特别是在复杂的语言环境中显示出较强的适应性。
-
公开(公告)号:CN113986016B
公开(公告)日:2024-08-09
申请号:CN202111348785.8
申请日:2018-02-09
申请人: 微软技术许可有限责任公司
IPC分类号: G06F3/01 , A61B5/00 , A61B5/0205 , A61B5/0507 , A61B5/11 , A61B5/117 , G01S5/18 , G01S5/28 , G01S13/72 , G06F1/3206 , G06F1/3231 , G06F1/324 , G06F1/329 , G06F3/03 , G06F3/0482 , G06F3/0484 , G06F3/16 , G06F21/32 , G06F21/35 , G06F40/211 , G06F40/35 , G06N5/025 , G06N5/04 , G06N20/00 , G06T7/246 , G06T7/292 , G06T7/60 , G06T7/70 , G06T7/73 , G07C9/28 , G08B13/14 , G10L15/02 , G10L15/06 , G10L15/08 , G10L15/18 , G10L15/19 , G10L15/22 , G10L15/24 , G10L15/26 , G10L15/28 , G10L15/32 , G10L17/04 , G10L17/08 , G10L17/22 , G10L25/51 , H04N21/422 , H04N21/442 , H04N7/18 , H04N21/231 , H04R1/40 , H04R3/00 , H04W4/029 , H04W4/33 , G06V40/10 , G06V10/94 , G06V20/52 , G06V30/262 , G06V20/40 , G06V40/20
摘要: 一种智能助理。本文公开了与实体跟踪相关的示例。一个示例提供了一种计算设备:包括逻辑处理器;以及存储设备,该存储设备保存可由逻辑处理器执行的指令以:接收包括人的环境的图像数据、使用面部检测算法处理图像数据以便以第一频率产生第一面部检测输出、基于第一面部检测输出确定人的身份、以及使用与面部检测算法相比使用更少的计算设备的计算资源的另一算法处理图像数据。该指令可进一步执行以基于跟踪输出跟踪环境中的人,以及执行以下中的一者或多者:使用第二面部检测输出更新另一算法,以及使用跟踪输出更新面部检测算法。
-
公开(公告)号:CN110349568B
公开(公告)日:2024-05-31
申请号:CN201910492599.8
申请日:2019-06-06
申请人: 平安科技(深圳)有限公司
IPC分类号: G10L15/06 , G10L15/19 , G10L15/22 , G06F16/332 , G06F16/33 , G06F40/284 , G06F40/216
摘要: 本发明公开了语音检索方法、装置、计算机设备及存储介质。该方法包括:接收训练集语料库,将训练集语料库输入至初始N‑gram模型进行训练,得到N‑gram模型;接收待识别语音,通过N‑gram模型对待识别语音进行进行识别,得到识别结果;将识别结果进行分词,得到与识别结果对应的语句分词结果;根据语句分词结果进行词法分析,得到语句分词结果对应的名词词性关键词;以及在预先存储的推荐语料库中搜索与名词性关键词的相似度超出预设的相似度阈值的语料,以得到检索结果。该方法采用语音识别技术,通过对语音识别的结果进行词法分析后得到名词词性关键词,实现根据名词词性关键词在推荐语料库中更准确的获取检索结果。
-
公开(公告)号:CN113808583B
公开(公告)日:2024-05-28
申请号:CN202010547914.5
申请日:2020-06-16
申请人: 浙江未来精灵人工智能科技有限公司
摘要: 本申请公开了一种语音识别方法,包括:获得待识别的音频数据;获得所述音频数据的高层音频特征;其中,所述高层音频特征为通过对所述音频数据进行编码得到的包含语义信息的音频特征;根据已解码文本信息,通过深度语言模型获得所述音频数据对应的当前待解码文本信息的高层句法特征;其中,所述深度语言模型为用于获得当前待解码文本信息的高层句法特征的网络模型;所述高层句法特征为在特定语境下,音频数据对应的语句所包含的组成部分以及所述组成部分的序列特征;根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据对应的文本信息。采用上述方法,解决了语音识别的速度及精度问题。
-
公开(公告)号:CN111613215B
公开(公告)日:2023-06-23
申请号:CN201910132335.1
申请日:2019-02-22
申请人: 浙江大学
摘要: 本申请公开了一种语音识别的方法及其装置,所述方法包括利用编码器获取与输入的语音数据对应的概率分布向量序列;将所述概率分布向量序列输入到语言模型组件,获取语音识别信息,其中,所述语言模型组件至少包括基于前缀束搜索的CTC模型组件。利用本申请,可提高语音识别的准确性。
-
公开(公告)号:CN110634479B
公开(公告)日:2023-02-28
申请号:CN201910411917.3
申请日:2019-05-17
申请人: 丰田自动车株式会社
摘要: 本发明涉及语音交互系统、其处理方法以及其程序。所述语音交互系统执行与用户的语音交互。所述语音交互系统包括:话题检测装置,其用于估计语音交互的话题并检测已经估计的话题中的变化;以及,反问检测装置,其用于当话题检测装置已经检测到话题中的变化时,基于用户的语音的韵律信息检测作为用户的反问的用户的语音。
-
公开(公告)号:CN108630203B
公开(公告)日:2022-12-20
申请号:CN201810175617.5
申请日:2018-03-02
申请人: 国立大学法人京都大学 , 丰田自动车株式会社
摘要: 提供了语音交互设备及其处理方法和程序。该语音交互设备包括:用于识别用户的语音的语音识别装置;应答语句生成装置,用于基于所识别的语音来生成对用户的语音的应答语句;填充生成装置,用于生成要被插入到对话中的填充词;输出装置,用于输出所生成的应答语句和所生成的填充词;以及分类装置,用于将所生成的应答语句分类为指示预定义的话语类型的预定话语模式之一。当用户在第一应答语句之后发出语音之后输出装置输出填充词并输出第二应答语句时,分类装置将第一应答语句分类为话语模式之一,并且填充生成装置基于第一应答语句已被分类为的话语模式来生成填充词。
-
公开(公告)号:CN107331389B
公开(公告)日:2021-06-18
申请号:CN201710202874.9
申请日:2009-03-06
申请人: 谷歌有限责任公司
摘要: 本申请涉及基于场境的语音识别语法选择方法和系统。除其它外,本说明书的主题可以实现在包括以下的方法中:接收从与第一计算设备相关联的非语言用户行为取得的地理信息。非语言用户行为暗示用户对地理位置感兴趣。该方法还包括使用取得的地理信息来识别与该地理位置相关联的语法,以及输出语法指示符以供在选择所识别的语法对来自用户的话音输入进行语音识别处理中使用。
-
公开(公告)号:CN107223280B
公开(公告)日:2021-01-08
申请号:CN201780000607.1
申请日:2017-03-03
申请人: 深圳前海达闼云端智能科技有限公司
发明人: 骆磊
摘要: 本发明实施例提供了一种机器人唤醒方法和装置,所述方法包括:获取语音命令;根据所述语音命令和预设的唤醒词库,解析出所述语音命令中的唤醒词以及命令内容,所述唤醒词库包括至少两个唤醒词,所述唤醒词库中的唤醒词对应至少两个机器人;根据解析出的唤醒词和命令内容执行操作。本发明实施例能而正确的解析出语音命令中的命令内容,进而正确的完成用户交代的任务。
-
公开(公告)号:CN110797010A
公开(公告)日:2020-02-14
申请号:CN201911051629.8
申请日:2019-10-31
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G10L15/02 , G10L15/06 , G10L15/16 , G10L15/18 , G10L15/19 , G10L15/22 , G10L15/26 , G10L25/60
摘要: 本发明提供了一种基于人工智能的问答评分方法、装置、设备及存储介质,涉及人工智能技术,方法包括:接收用户回答问题的音频内容,进行语音识别得到音频内容的音频特征和文本内容;基于音频特征、文本内容以及参考文本,从至少一个维度提取对应音频内容的发音质量特征,基于提取的发音质量特征确定表征音频内容的发音质量的发音评分;对文本内容以及参考文本进行相似度分析,确定表征音频内容的正确度的相似度评分,对文本内容进行语法检测,确定表征音频内容的语法质量的语法评分;将发音评分,相似度评分以及语法评分进行融合处理,确定对应音频内容的综合评分。通过本发明,能够解决仅使用关键词检测来评分所导致评分不准确和不全面的问题。
-
-
-
-
-
-
-
-
-