-
公开(公告)号:CN118505283A
公开(公告)日:2024-08-16
申请号:CN202410624811.2
申请日:2024-05-20
申请人: 厦门快商通科技股份有限公司
IPC分类号: G06Q30/0202 , G06F16/332 , G06F16/31 , G06F16/33 , G06N3/0442 , G06N3/08
摘要: 本发明公开了一种基于客服对话和搜索词句的留联概率预测方法、装置及可读介质,包括:获取客服对话和第一搜索词句,客服对话包括访客语句和客服语句,采用TF‑IDF算法确定与第一搜索词句相似的若干第二搜索词句及其对应的留联情况,基于第一搜索词句与第二搜索词句之间的相似度以及第二搜索词句对应的留联情况计算得到留联先验概率;构建预训练的LSTM模型并进行微调,得到留联率预测模型,将客服对话逐句输入留联率预测模型,输出当前轮次的客服语句和访客留联概率。因此能够准确的预测出访客留联概率,便于衡量客服对话的质量。
-
公开(公告)号:CN118298796A
公开(公告)日:2024-07-05
申请号:CN202410397236.7
申请日:2024-04-03
申请人: 厦门快商通科技股份有限公司
摘要: 本发明公开了一种语音合成模型的训练方法、语音合成方法、装置及可读介质,该训练方法包括:获取若干单个说话人的多语种的语音数据并进行预处理,得到训练数据;分别针对每个语种构建改进的Bert模型并训练,改进的Bert模型在Bert模型的transformer结构中的编码模块和解码模块的后面均增加一个HUK模块,HUK模块再与编码模块和解码模块的前面的加法器连接;构建基于改进的VITS模型的语音合成模型并分阶段训练,将文本输入到经训练的改进的Bert模型中,得到Bert特征向量,将Bert词向量以及文本生成的音素均输入到VITS模型的文本编码器中,并将VITS模型中的随机时长预测器替换为改进的随机时长预测器,得到经训练的语音合成模型,解决改善跨语种语音合成效果不稳定、语速异常问题。
-
公开(公告)号:CN117437922A
公开(公告)日:2024-01-23
申请号:CN202311567785.6
申请日:2023-11-21
申请人: 西南政法大学 , 厦门快商通科技股份有限公司
摘要: 本发明公开了一种声纹聚类方法、装置及可读介质,该方法包括:获取待聚类的N条语音,并提取每条语音的声纹特征;构建N‑1个第一集合Sm,第一集合Sm中的每个元素均由m条语音的声纹特征组合而成,且元素中任意两条语音的声纹特征之间的相似度大于或等于相似度阈值,其中,2≤m≤N;统计所有第一集合中的元素并构成第二集合;对第二集合进行过滤,得到有效元素,若干个有效元素构成第三集合,第三集合中每个有效元素的每条语音的声纹特征构成第四集合,将N条语音的声纹特征中未记录在第四集合中的元素的声纹特征分别加入第三集合中,得到第五集合,将第五集合中每个元素作为单人的声纹聚类结果,可有效提高聚类结果的准确性。
-
公开(公告)号:CN110852075B
公开(公告)日:2023-12-26
申请号:CN201910949223.5
申请日:2019-10-08
申请人: 厦门快商通科技股份有限公司
IPC分类号: G06F40/242 , G06F40/289 , G06F16/35 , G06F16/33 , G10L15/26 , G10L15/28 , G10L15/14 , G10L15/16 , G10L15/06 , G10L15/30
摘要: 本发明公开了一种自动添加标点符号的语音转写方法、装置及可读存储介质,其通过获取指定技术领域的常用表达,并根据常用表达进行提取话术;对所提取的话术进行要素分解或关键要素提取,得到一个以上的分解要素;并对每个分解要素设置对应的要素类型和对应的标点类型;根据分解要素、要素类型、标点类型构造词典文件;根据话术将词典文件中的分解要素连接成完整句子进行训练语言模型;将待转写语音输入语言模型进行预测,输出对应的带标点符号的转写文本;其中,标点符号的标点类型与转写文本的分解要素的要素类型相对应,从而将标点作为文本的一部分进行构建词典文件,输出文本时同时输出对应的标点符号,计算量更小,实时效果更好。
-
公开(公告)号:CN113806507B
公开(公告)日:2023-06-23
申请号:CN202111087866.7
申请日:2021-09-16
申请人: 厦门快商通科技股份有限公司
IPC分类号: G06F16/332 , G06F16/33 , G06F16/35 , G06F40/242 , G06N3/048 , G06N3/08
摘要: 本发明公开了一种多标签分类方法、装置及可读介质,首先在预处理过程中使用在垂直对话领域上继续预训练的预训练模型,使得预训练模型更符合对话数据集分布,提高下游任务性能。再构建多标签分类模型,通过引入Attention机制可以抓取文本中的一些特殊字符的具体含义,提高分类效果,并且通过引入多标签推理机制,可以获取多标签之间的相互关系,并且不会受到多标签之间的顺序的影响,能够更进一步提高了模型的精度,达到了优秀的分类结果。
-
公开(公告)号:CN111816208B
公开(公告)日:2023-05-05
申请号:CN202010554752.8
申请日:2020-06-17
申请人: 厦门快商通科技股份有限公司
IPC分类号: G10L25/60 , G10L25/24 , G10L21/0272 , G10L21/0308
摘要: 本发明提出了一种语音分离质量评估方法、装置及计算机存储介质,所述方法包括:获取混合语音训练数据;对所述混合语音训练数据进行预处理,提取出所述混合语音训练数据的MFCC特征以训练生成语音分离模型;获取混合语音测试数据,所述混合语音测试数据中包括多条语音数据,所述语音数据中包括至少两条纯净语音数据;提取出所述语音数据的MFCC特征,将所述语音数据的MFCC特征输入语音分离模型,得到分离完成的单人语音数据;基于混合之前的所述纯净语音数据,计算并整合所述单人语音数据的质量参数,得到经过所述语音分离模型分离后的语音质量评估结果;通过算法整合计算分离后的语音质量评估结果,实现客观合理地进行分离结果质量评估。
-
公开(公告)号:CN116030797A
公开(公告)日:2023-04-28
申请号:CN202111253261.0
申请日:2021-10-27
申请人: 厦门快商通科技股份有限公司
摘要: 本发明涉及声纹识别技术领域,尤其涉及一种基于声纹识别的语音唤醒方法和设备。所述方法包括:步骤S1、在语音唤醒时,同时进行声纹识别,获取实现语音唤醒的唤醒人的ID;步骤S2、在多轮对话时,识别对话过程中唤醒人的每一句话的说话意图,并输出。使用本发明的基于声纹识别的语音唤醒方法可以对传统的语音唤醒设备进行改造,结合声纹识别方法,可以识别出唤醒人的ID,同时可以为每个唤醒人ID定制一套专有的对话系统,还可以根据句末检测分类器,实现语音唤醒后的多轮对话功能。
-
公开(公告)号:CN116010563A
公开(公告)日:2023-04-25
申请号:CN202111231313.4
申请日:2021-10-22
申请人: 厦门快商通科技股份有限公司
IPC分类号: G06F16/332 , G06F16/35 , G06F40/295 , G06F40/35 , G16H15/00
摘要: 本发明涉及人工智能的语言处理领域,尤其涉及一种多轮对话数据分析方法、电子设备和存储介质。所述方法包括:S1、将多轮对话数据按对话顺序进行拼接形成文档;S2、将文档进行语言表征,输出文档中各个词的特征向量,即输出中间表示;S3、将中间表示进行Attention处理,输出文档表示;S4、将中间表示进行命名实体识别,输出一个或多个实体;S5、将所述实体按对话先后拼接后进行归一化处理,输出当前实体的特征向量;S6、将所述文档表示和所述当前实体的特征向量输入第一分类器,输出文档特征表示;S7、将所述当前实体的特征向量输入第二分类器,输出实体归一化结果。本方法适用于多主题问询、跳句回答等复杂对话场景,能很好地完成多轮对话数据分析。
-
公开(公告)号:CN115910022A
公开(公告)日:2023-04-04
申请号:CN202211283359.5
申请日:2022-10-20
申请人: 厦门快商通科技股份有限公司
摘要: 本发明提供一种说话人相关防语音合成攻击方法和系统,包括:S1:获取合成音频和真实语音;S2:利用合成音频和真实语音,以及相应的合成音频标签和真实语音标签,训练神经网络模型,得到训练好的神经网络模型;具体训练包括:输入合成音频和真实语音,以及相应的合成音频标签和真实语音标签;利用一维卷积网络对合成音频和真实语音进行初步的特征提取,同时利用预训练的声纹特征模型提取声纹特征,再将提取的时间维度的特征利用时间维度图注意力网络进行加权平均;再通过融合层进行融合,再经过频率‑时间注意力网络完成Attention操作和池化操作,进入合成检测模型进行检测;完成模型训练;S3:根据训练好的神经网络模型进行防语音合成攻击检测。本发明提供的方法,实现稳定准确的检测,对其他合成攻击也能具有良好的泛化能力。
-
公开(公告)号:CN112053697B
公开(公告)日:2023-03-31
申请号:CN202010724834.2
申请日:2020-07-24
申请人: 厦门快商通科技股份有限公司
IPC分类号: G10L19/02 , G10L19/035 , G10L21/003 , G10L25/27
摘要: 本发明公开了一种提升客服人员声音感染力的方法,通过如下步骤实现对客服人员的声音感染力提升:s01,根据用户的反馈评价对客服人员的声音进行评分,选取评分前10%声音作为标准声音;s02,提取标准声音的特征值并计算出平均值得到标准特征值范围;s03,获取目标声音并进行预加重和分帧处理,获取与标准声音相同的特征值;s04,判断目标声音的特征值是否在标准特征值范围内,若在范围内则直接作为还原声音,若不在范围内则进行加权处理使接近标准特征值范围;s05,根据步骤s04中加权处理的结果对声音数据进行还原得到声音并输出。本发明的优点在于:实现了对目标声音的感染力提升美化,达到对客服人员声音感染力提升的目的。
-
-
-
-
-
-
-
-
-