-
公开(公告)号:CN118648056A
公开(公告)日:2024-09-13
申请号:CN202380019720.X
申请日:2023-01-25
申请人: 梅赛德斯-奔驰集团股份公司
IPC分类号: G10L15/193 , G10L15/19 , G01C21/36 , G06F3/0481 , G10L15/22 , G06F3/0482 , G06F3/0488
摘要: 本发明涉及一种用于处理语音输入的方法,通过所述语音输入控制车辆中的车辆功能(I,II,III),该方法包括语音识别并且包括显示在车辆的屏幕(7)上的与车辆功能(I,II,III)相关联的图形。根据本发明的方法的特征在于,通过与其他车辆功能(I,II,III)的同时显示的图形相比,直接响应于中性快捷命令(8)的车辆功能(I,II,III)的所显示的图形被可区分地标记,车辆功能能够借助于不能明确地与车辆功能相关联的语音中性快捷命令来控制。
-
公开(公告)号:CN113168828A
公开(公告)日:2021-07-23
申请号:CN201980078503.1
申请日:2019-09-24
申请人: 艾普伦特有限责任公司
IPC分类号: G10L15/06 , G10L15/02 , G10L15/18 , G10L15/193 , G06N20/00
摘要: 在一个实施例中,生成合成训练数据项,每个合成训练数据项包括:a)合成语句的文本表示,以及b)合成语句的一个或多个转码,该一个或多个转码包括一个或多个动作和与一个或多个动作相关联的一个或多个实体。对于每个合成训练数据项,合成语句的文本表示被转换成表示合成语句的音素序列。然后,第一机器学习模型被训练为转码器,该转码器根据音素序列确定包括动作和关联的实体的转码,其中,使用第一训练数据集来执行该训练,第一训练数据集包括多个合成训练数据项,该多个合成训练数据项包括:a)表示合成语句的音素序列,以及b)合成语句的转码。转码器可以在会话代理中使用。
-
公开(公告)号:CN105895091B
公开(公告)日:2020-01-03
申请号:CN201610210222.5
申请日:2016-04-06
申请人: 普强信息技术(北京)有限公司
IPC分类号: G10L15/193
摘要: 本发明公开了一种ESWFST构建方法,该ESWFST构建方法包括,对WFST的八元组进行定义;将正则文法转换成WFST;对WFST进行序列的运算;嵌入文法名称;把文法名称加入词典之后进行处理;经解码器进行处理;生成ESWFST的格式;对结果进行识别。该ESWFST构建方法在基于自然语言的语义理解过程中,特别是在文法识别的应用中(如导航类应用),语音识别结果的展现形式能够给予理解过程更多的辅助信息,从而提升识别结果的可理解性。
-
公开(公告)号:CN109147781A
公开(公告)日:2019-01-04
申请号:CN201810956617.9
申请日:2008-07-09
申请人: 声钰科技
IPC分类号: G10L15/22 , G10L15/193 , G10L15/19 , G06Q30/02 , G01C21/36
CPC分类号: G10L15/22 , G01C21/3608 , G06Q30/0261 , G10L15/00 , G10L15/04 , G10L15/08 , G10L15/19 , G10L15/193
摘要: 本发明涉及一种通过自然语言语音用户界面提供车载服务的方法和系统。语音用户界面允许用户以自然语言提出关于各种导航服务的请求,并且还可以按照合作的、会话的对话方式与用户交互,来解析该请求。除其他以外,通过动态的上下文的认识、可用的信息源、域知识、用户行为和偏好、以及外部系统和设备,该语音用户界面可以提供集成的环境,在该环境中用户能够使用自然语言会话式地进行讲话,以发出查询、命令、或与该环境中提供的与导航服务有关的其他请求。
-
公开(公告)号:CN105917405A
公开(公告)日:2016-08-31
申请号:CN201580004735.4
申请日:2015-01-12
申请人: 微软技术许可有限责任公司
IPC分类号: G10L15/32 , G10L15/30 , G10L15/193 , G10L15/197
摘要: 提供了外源性大词汇量模型到基于规则的语音识别的合并。音频流由本地小词汇量、基于规则的语音识别系统(SVSRS)接收,并被传输至大词汇量的、基于统计模型的语音识别系统(LVSRS)。SVSRS和LVSRS对音频执行识别。如果一部分音频没有被SVSRS识别,则触发这样的规则:将标记插入到识别结果中。将该识别结果发送至LVSRS。如果检测到标记,则对音频的指定的一部分执行识别。LVSRS结果与SVSRS结果进行统一并作为混合响应发送回SVSRS。如果没有触发混合识别规则,则唤起仲裁算法来确定是SVSRS识别还是LVSRS识别具有更小的词语错误率。将所确定的识别作为响应发送至SVSRS。
-
公开(公告)号:CN116913262A
公开(公告)日:2023-10-20
申请号:CN202310912886.6
申请日:2023-07-24
申请人: 重庆赛力斯新能源汽车设计院有限公司
IPC分类号: G10L15/18 , B60R16/02 , G10L15/193 , G10L15/22 , G10L25/54 , G06F40/30 , G06F40/205 , G06F40/253
摘要: 本申请涉及智能座舱技术领域,提供了一种车载语义理解的方法、装置、电子设备及可读存储介质。该方法包括:接收输入文本;依照文法解析器中输入文本对应的静态规则与实体匹配方式为输入文本匹配对应的目标车载实体,静态规则包括指定文本与车载实体的标签之间的语义规则,文法解析器包括静态规则、实体匹配方式及多模式匹配方式;依照文法解析器中多模式匹配方式为输入文本匹配对应的目标控制信息;将目标车载实体及目标控制信息作为语义理解结果,按照目标控制信息控制目标车载实体执行相应操作。本申请提供的车载语义理解的方法,能够在车端网络状况不佳或无网络连接时提供流畅的语义理解,以得到语义理解结果,从而提升了用户的使用感受。
-
公开(公告)号:CN108496219B
公开(公告)日:2022-12-30
申请号:CN201680076211.0
申请日:2016-11-04
申请人: 剑桥大学的校长、教师和学者
发明人: 托马斯·威廉·约翰·ASH , 安东尼·约翰·罗宾逊
IPC分类号: G10L15/193 , G10L25/51 , G09B19/06 , G10L25/78 , G10L15/187
摘要: 在一实施例中,提供了一种语音处理系统,其包括一输入,用于接收一用户所说的输入话语;以及一单词对齐单元,被配置为将声学语音模型的不同序列与用户所说的输入话语对齐,声学语音模型的每个不同序列对应于用户可能说出的一种不同可能话语并且标识:朗读提示文本中用户跳过的任何部分;所述朗读提示文本中用户重复的任何部分;以及所述朗读提示文本中用户在的单词之间插入的任何语音。来自所述单词对齐单元的信息可用于评估用户讲话的熟练度和/或流畅性。
-
公开(公告)号:CN110473551B
公开(公告)日:2022-07-08
申请号:CN201910854154.X
申请日:2019-09-10
申请人: 北京百度网讯科技有限公司
IPC分类号: G10L15/26 , G10L15/197 , G10L15/193 , G10L15/28
摘要: 本申请公开了一种语音识别方法、装置、电子设备及存储介质,涉及语音识别技术领域。具体实现方案为:对输入的语音进行语音识别,得到初始文本数据;识别所述初始文本数据中的公式片段;对所述公式片段进行文法解析,得到所述公式片段对应的文法树;基于所述文法树得到所述公式片段对应的公式翻译结果;将所述初始文本数据中的所述公式片段替换为所述公式翻译结果,得到所述语音对应的语音识别结果。本申请通过对获取的公式片段进行文法解析,得到公式片段对应的文法树,进而根据文法树得到公式片段对应的公式翻译结果,可实现对公式各个部分相互关系充分理解,对公式进行更彻底、精准的改写归一,解决复杂公式的识别翻译。
-
公开(公告)号:CN113920999A
公开(公告)日:2022-01-11
申请号:CN202111274880.8
申请日:2021-10-29
申请人: 科大讯飞股份有限公司
IPC分类号: G10L15/193 , G10L15/08 , G10L15/26 , G10L15/02 , G10L25/24
摘要: 本申请提出一种语音识别方法、装置、设备及存储介质,该方法包括:获取待识别语音的声学状态序列;基于所述待识别语音所属场景下的垂类关键字集合及句式解码网络,构建语音识别解码网络,其中,所述句式解码网络通过对所述待识别语音所属场景下的文本语料进行句式归纳和语法槽定义处理构建得到;利用所述语音识别解码网络对所述声学状态序列进行解码,得到语音识别结果。通过构建上述的语音识别解码网络,并用于语音识别,能够准确识别待识别语音,尤其是能够准确识别涉及垂类关键字的特定场景下的语音,特别是能准确识别语音中的垂类关键字。
-
公开(公告)号:CN113614825A
公开(公告)日:2021-11-05
申请号:CN201980094165.0
申请日:2019-06-27
申请人: 谷歌有限责任公司
发明人: 列昂尼德·韦利科维奇 , 彼塔尔·阿列克西克 , 佩德罗·莫雷诺
IPC分类号: G10L15/08 , G10L15/193 , G10L15/187 , G10L15/18
摘要: 公开了能够确定捕获的音频数据中的命名实体的文本表示的语音处理技术。各种实施方式包括确定载体短语在捕获的音频数据的字词网格表示中的位置,其中该载体短语提供命名实体的指示。附加或替代的实施方式包括将候选命名实体与一部分字词网格相匹配,并用相匹配的候选命名实体扩增字词网格。
-
-
-
-
-
-
-
-
-