专利检索 ap:("百度在线网络技术(北京)有限公司") AND inv:"李超" 第 4 页

31.

发明授权
基于人工智能的电话拨测音频分类方法及装置有权

公开(公告)号：CN106504768B

公开(公告)日：2019-05-03

申请号：CN201610921879.2

申请日：2016-10-21

申请人： 百度在线网络技术(北京)有限公司

发明人： 李超 , 李先刚 , 孙珏

IPC分类号： G10L25/51 , G10L17/08

摘要： 本发明提出一种基于人工智能的电话拨测音频分类方法及装置，其中，该方法包括：获取电话拨测音频数据；利用预设的分类器，对所述电话拨测音频数据进行处理，确定所述电话拨测音频与各类型的相似度，其中，所述预设的分类器为根据历史电话拨测音频数据及其分别对应的电话类型，确定的深度学习模型；根据所述电话拨测音频与各类型的相似度，确定所述电话拨测音频对应的电话类型。通过本发明提供的基于人工智能的电话拨测音频分类方法及装置，实现了利用机器学习的方法，对电话拨测音频进行分类，以确认用户是否是正常用户，从而节省了人工成本，提高了拨测效率。

32.

发明公开
用于生成模型的方法和装置有权

公开(公告)号：CN109658920A

公开(公告)日：2019-04-19

申请号：CN201811550079.X

申请日：2018-12-18

申请人： 百度在线网络技术(北京)有限公司

发明人： 李超

IPC分类号： G10L15/06 , G10L15/04 , G10L19/005 , G10L19/24 , G10L25/30 , G10L25/87

摘要： 本申请实施例公开了用于生成模型的方法和装置，以及用于检测语音的方法和装置。该用于生成模型的方法的一具体实施方式包括：获取针对处理后音频集合的训练样本集合，其中，处理后音频集合包括对处理前音频执行音质劣化处理得到的音频，训练样本与处理后音频一一对应，训练样本包括处理后音频的特征数据和标识信息，标识信息用于指示处理后音频中是否包括语音音频；利用机器学习算法，将训练样本集合中的训练样本包括的特征数据作为输入，将与输入的特征数据对应的标识信息作为期望输出，训练得到语音识别模型。该实施方式丰富了模型的训练方式，有助于提高语音端点识别的准确度。

33.

发明公开
语音数据的处理方法、装置及设备有权

公开(公告)号：CN108986798A

公开(公告)日：2018-12-11

申请号：CN201810681124.9

申请日：2018-06-27

申请人： 百度在线网络技术(北京)有限公司

发明人： 李超 , 朱唯鑫

IPC分类号： G10L15/20 , G10L15/16 , G10L21/0208 , G10L25/03 , G10L25/24 , G10L25/30

摘要： 本申请提供一种语音数据的处理方法、装置及设备，该方法包括：提取待处理的音频帧的声学特征；将待处理的音频帧的声学特征输入预设的双头神经网络模型，获得待处理的音频帧对应的输出节点的值，双头神经网络模型由训练数据中各音频帧的声学特征及对应的第一标注数据和第二标注数据对双头神经网络训练得到；根据待处理的音频帧对应的输出节点的值，确定待处理的音频帧对应的去噪后声学特征。由于双头神经网络模型是由训练数据中各音频帧的声学特征及对应的第一标注数据和第二标注数据训练得到，采用两种标注数据，从而获得的梯度用来更新两个头共享的那部分网络参数，有利于让双头神经网络学习的更好，从而获得更好的性能。

34.

发明公开
语音信号加噪方法、装置及存储介质有权

公开(公告)号：CN108899041A

公开(公告)日：2018-11-27

申请号：CN201810948033.7

申请日：2018-08-20

申请人： 百度在线网络技术(北京)有限公司

发明人： 李超 , 朱唯鑫

IPC分类号： G10L21/003 , G10L25/78 , G10L21/02

摘要： 本发明实施例提出一种语音信号加噪方法、装置及计算机可读存储介质。其中语音信号加噪方法包括：读取语音信号和噪声信号；产生符合特定分布特性的信噪比；根据所述语音信号的语音活动检测信息、所述噪声信号和所述信噪比计算加噪控制参数；根据所述加噪控制参数和所述噪声信号对语音信号进行加噪处理。本发明实施例改进了加噪控制参数，使加噪方式更加合理，从而使噪声抑制的效果更好，语音识别的性能大大提高。

35.

发明公开
语音端点检测方法及设备有权

公开(公告)号：CN108877778A

公开(公告)日：2018-11-23

申请号：CN201810606354.9

申请日：2018-06-13

申请人： 百度在线网络技术(北京)有限公司

发明人： 李超 , 朱唯鑫

IPC分类号： G10L15/05 , G10L15/08 , G10L15/26

摘要： 本发明实施例提供一种语音端点检测方法及设备，该方法包括对待检测语音进行分帧处理，得到多个待检测的音帧；获取各待检测音帧的声学特征，并将各待检测音帧的声学特征依次输入至语音活动性检测VAD模型；其中，VAD模型用于将待检测语音中的前N个语音帧分类为噪声帧、将第N+1个语音帧至最后一个语音帧分类为语音帧以及将最后一个语音帧之后的M个噪声帧分类为语音帧，N和M为整数；根据VAD模型输出的分类结果确定语音段的起点和终点；其中，起点对应首个被分类为语音帧的音帧，终点对应最后一个被分类为语音帧的音帧。本发明实施例可以提高语音端点检测的准确度。

36.

发明公开
图像采集设备和图像采集方法有权

公开(公告)号：CN108683833A

公开(公告)日：2018-10-19

申请号：CN201810834386.4

申请日：2018-07-26

申请人： 百度在线网络技术(北京)有限公司

发明人： 梁子铭 , 曾彦 , 杨增武 , 梁耀端 , 刘宪明 , 蓝向辉 , 汤文钊 , 李超

IPC分类号： H04N5/225 , H04N5/232 , B60R11/04 , B62J11/00 , G01B7/02 , G01B11/02 , G01C22/00 , F16M13/04

CPC分类号： H04N5/2251 , B60R11/04 , B62J11/00 , F16M13/04 , G01B7/02 , G01B11/02 , G01C22/00 , H04N5/23203

摘要： 本申请实施例公开了图像采集设备和图像采集方法。该设备包括：相机、车载固定支架、背负支架、测距装置和主控装置，其中，主控装置与相机通信连接，背负支架可拆卸地设置在车载固定支架上，背负支架上设置有竖直放置的相机固定杆，相机设置在相机固定杆的顶端；测距装置与主控装置通信连接，测距装置用于测量相机的移动距离。该实施方式丰富了图像采集设备的安装方式，以及丰富了图像采集设备的使用场景。

37.

发明公开
用于增强语音的方法和装置有权

公开(公告)号：CN108564963A

公开(公告)日：2018-09-21

申请号：CN201810367680.9

申请日：2018-04-23

申请人： 百度在线网络技术(北京)有限公司

发明人： 李超 , 孙建伟

IPC分类号： G10L21/0216 , G10L21/0232 , G10L21/0208

摘要： 本申请实施例公开了用于增强语音的方法和装置。该方法的一具体实施方式包括：获取麦克风阵列采集的多个通道的时域语音；基于多个通道的时域语音，生成至少一个通道的频域语音；对至少一个通道的频域语音进行分析，得到至少一个通道的频域语音的归一化增强系数；利用至少一个通道的频域语音的归一化增强系数对至少一个通道的频域语音进行增强处理，得到至少一个通道的增强频域语音；对至少一个通道的增强频域语音进行逆傅立叶变换，得到至少一个通道的增强时域语音。该实施方式实现了富于针对性地语音增强，有助于消除语音中的噪声和室内混响，提高语音识别的准确度。

38.

发明公开
信息显示系统、方法和装置无效

公开(公告)号：CN106941538A

公开(公告)日：2017-07-11

申请号：CN201710339955.3

申请日：2017-05-15

申请人： 百度在线网络技术(北京)有限公司

发明人： 李超 , 孙启堂 , 孙博弘 , 刘波

IPC分类号： H04L29/08 , H04L29/06

CPC分类号： H04L67/02 , H04L67/26 , H04L67/32 , H04L67/38

摘要： 本申请公开了信息显示系统、方法和装置。该系统的一具体实施方式包括：应用服务器，用于响应于接收到第一客户端发送的、包含网址和使用第一客户端的用户的用户信息的页面获取请求，提取网址所对应的页面数据，并向信息管理服务器发送包含用户信息的虚拟现实信息获取请求；信息管理服务器，用于响应于确定用户满足预设条件，向应用服务器返回与预设条件相匹配的虚拟现实信息；第一客户端，用于响应于接收到应用服务器返回的页面数据和虚拟现实信息，对页面数据和虚拟现实信息进行解析，生成虚拟现实摘要信息，并显示包含虚拟现实摘要信息的页面。该实施方式提高了信息显示的灵活性。

39.

发明公开
用于对无线热点和POI进行匹配的方法和装置有权

公开(公告)号：CN106303955A

公开(公告)日：2017-01-04

申请号：CN201610641407.1

申请日：2016-08-05

申请人： 百度在线网络技术(北京)有限公司

发明人： 汪天一 , 李超 , 吴海山

IPC分类号： H04W4/02 , H04W48/16 , G06F17/30

CPC分类号： H04W4/023 , H04W4/021 , H04W48/16 , H04W64/003 , H04W84/042 , G06F17/3087

摘要： 本发明的目的是提供一种用于对无线热点和POI进行匹配的方法和装置。根据本发明的方法包括以下步骤：基于用户已扫描的各个无线热点的热点扫描信息，获取所述用户所在的无线热点的位置信息；根据所述位置信息，获取该无线热点附近的一个或多个候选POI；基于对应于所述无线热点和所述各个候选POI的特征信息，对各个候选POI进行排序，从而确定与该无线热点相匹配的POI，其中，所述特征信息包括到访特征信息。与现有技术相比，本发明具有以下优点：基于用户扫描无线热点的相关数据得到与无线热点相匹配的POI，来预测用户实际到访过的POI，而无需人工采集数据或用户反馈的过程，提升了效率。

40.

发明公开
UBM分字模型的建立方法、声纹特征生成方法及装置有权

公开(公告)号：CN106128464A

公开(公告)日：2016-11-16

申请号：CN201610409454.3

申请日：2016-06-12

申请人： 百度在线网络技术(北京)有限公司

发明人： 李超 , 吴本谷

IPC分类号： G10L17/02 , G10L17/04 , G10L25/27 , G06F21/41

CPC分类号： G10L17/02 , G06F21/41 , G10L17/04 , G10L25/27

摘要： 本发明公开了一种通用背景模型UBM分字模型的建立方法、基于该UBM分字模型的声纹特征生成方法以及装置。其中UBM分字模型的建立方法包括：提取训练语音的声学特征，并对训练语音进行语音识别以获取训练语音中的各个字符；从训练语音的声学特征中确定各个字符的声学特征；针对每个字符，分别对每个字符的声学特征进行训练以建立对应的UBM分字模型；针对每个字符，分别根据每个字符的声学特征以及对应的UBM分字模型生成对应的声纹特征提取器。该方法分别为每个字符单独建立一个对应的UBM分字模型以及声纹特征提取器，可以获得更加精确的Baum‑Welch统计量，进而可以得到精确的声纹模型。

搜索结果

国家/区域

专利有效性

申请日

公布(公告)日

申请人

申请人所在国/区域

发明人

IPC

IPC部

IPC大类

IPC小类

IPC大组

IPC小组

外观分类