自动问答方法、装置、设备以及存储介质

    公开(公告)号:CN111782785B

    公开(公告)日:2024-04-19

    申请号:CN202010613855.7

    申请日:2020-06-30

    发明人: 王晶 彭程 罗雪峰

    摘要: 本申请公开了自动问答方法、装置、设备以及存储介质,涉及自然语言处理、人工智能、深度学习技术领域。具体实现方案为:获取目标问题;对目标问题进行分析,确定目标问题所属的目标类目;根据目标问题以及与目标类目对应的预设关键词集合,确定目标问题中的至少一个关键词;根据目标问题、至少一个关键词以及预设的知识库中目标类目下的至少一个标准问题、各标准问题对应的关键词,确定与目标问题相似的目标标准问题;将目标标准问题的答案输出。本实现方式充分利用了知识库中的知识,确定出目标问题所属的类目,提高了目标问题的识别速度,并能够基于类目准确提取关键词,从而提高问题匹配的准确率。

    用于标注数据的方法和装置

    公开(公告)号:CN110472055B

    公开(公告)日:2021-09-14

    申请号:CN201910775144.7

    申请日:2019-08-21

    发明人: 李晓东 罗雪峰

    IPC分类号: G06F16/35 G06F16/33

    摘要: 本公开的实施例公开了用于标注数据的方法和装置。该方法的一具体实施方式包括:响应于接收到待标注的数据,查询聚类不同且第一相似度最高的预定数目个数据;对预定数目个数据与待标注的数据进行第二相似度的计算;将预定数目个数据中与待标注的数据的第二相似度超过预定的聚类阈值的数据放入到数据集合;若数据集合不为空,且数据集合中不存在与待标注的数据的第二相似度大于预定的数据合并阈值的数据,则使用数据集合中的与待标注的数据的第二相似度最高的数据对应的聚类作为待标注的数据的聚类,将待标注的数据插入预定数据库中,其中,数据合并阈值大于聚类阈值。该实施方式能够提高云计算速度,提升标注工作的效率和效果。

    一种智能应答方法、装置、设备及存储介质

    公开(公告)号:CN111611364A

    公开(公告)日:2020-09-01

    申请号:CN202010414320.7

    申请日:2020-05-15

    摘要: 本申请公开了一种智能应答方法、装置、设备及存储介质,涉及人工智能技术领域和云计算领域。具体实现方案为:获取当前待应答语句,确定所述当前待应答语句的意图所对应的当前待收集实体;若根据所述当前待应答语句确定满足预设实体澄清条件,则获取所述当前待收集实体对应的实体澄清语句;所述实体澄清语句用于对所述当前待收集实体的实体值进行澄清;将所述实体澄清语句作为所述当前待应答语句的回复语句进行输出。通过对当前待应答语句进行澄清回复,实现了对用户请求的自动回复,提高智能应答的效率和精确性。

    唤醒语料的获取方法和装置

    公开(公告)号:CN110491394A

    公开(公告)日:2019-11-22

    申请号:CN201910865292.8

    申请日:2019-09-12

    摘要: 本申请公开了唤醒语料的获取方法和装置,涉及云计算领域以及语音技术。具体实现方案为:获取多个第一唤醒语料和多个第二唤醒语料;根据该多个第一唤醒语料获取多个测试唤醒模型;采用该多个第二唤醒语料验证每个该测试唤醒模型,以获取每个该测试唤醒模型的唤醒分数;根据各该测试唤醒模型的唤醒分数,确定该多个第一唤醒语料中的多个目标唤醒语料;该多个目标唤醒语料用于获取目标唤醒模型,该目标唤醒模型用于识别语音信号中的唤醒词。本申请可以使得确定的多个用于训练唤醒模型的目标唤醒语料中的高质量唤醒语料的比例大大提高,进而提高了唤醒模型识别唤醒词的准确度。

    一种数据生成方法和装置
    5.
    发明公开

    公开(公告)号:CN110110060A

    公开(公告)日:2019-08-09

    申请号:CN201910333272.6

    申请日:2019-04-24

    IPC分类号: G06F16/332 G06N3/04 G06N3/08

    摘要: 本发明提供一种数据生成方法和装置,该方法包括:将原始数据拆分为多个数据单元;将所述多个数据单元作为第一生成模型的输入对所述第一生成模型训练,得到第二生成模型,其中,所述第一生成模型的输出为每一所述数据单元关联的第一语句向量和每一所述数据单元关联的第二语句向量,所述第一语句向量和第二语句向量用于调整所述第一生成模型;将所述多个数据单元输入到所述第二生成模型,得到目标数据,所述目标数据的数据量大于所述原始数据的数据量。本发明实施例能够基于较少数量的原始数据生成较多的高质量数据,能够实现对于数据的扩充,有助于提高与问题的匹配效果。

    一种FAQ对话方法、装置及电子设备

    公开(公告)号:CN110096580A

    公开(公告)日:2019-08-06

    申请号:CN201910332922.5

    申请日:2019-04-24

    IPC分类号: G06F16/332

    摘要: 本发明提供一种FAQ对话方法、装置及电子设备,方法包括:接收用户输入的查询语句;在问答库中查询与查询语句关联的N对第一问答对,其中,问答库中的每一问答对包括问句和答案,且每一第一问答对的问句与查询语句匹配,N为大于1的整数;基于深度学习模型,获取N对第一问答对中各问句与查询语句的相似度,其中,深度学习模型为:基于问答库中的部分或者全部问答对训练得到的模型;在N对第一问答对中,将问句与查询语句的相似度最高的第一问答对确定为目标问答对,并输出目标问答对的答案。这样,电子设备不仅可以提升输出查询语句的答案的准确性,还可以提升匹配速度,进而提升电子设备输出查询语句的答案的效率。

    文本分类方法、装置、设备以及存储介质

    公开(公告)号:CN111767729B

    公开(公告)日:2024-01-09

    申请号:CN202010608375.1

    申请日:2020-06-30

    摘要: 本申请公开了文本分类方法、装置、设备以及存储介质,涉及自然语言处理、深度学习技术、人工智能领域。具体实现方案为:获取目标文本;确定目标文本的向量矩阵;根据向量矩阵,确定胶囊向量矩阵,其中,胶囊向量矩阵中的每个胶囊向量包括至少两个值;根据胶囊向量矩阵中的各胶囊向量,确定目标文本的句向量;根据句向量以及预设的至少两个类别向量,确定目标文本的类别。本实现方式可以利用胶囊网络来准确地提取目标文本的语义信息,从而能够实现更准确的分类,能够实现对用户态度的识别,为提升人机对话系统的质量提供基础。

    数据集处理方法、装置、电子设备和存储介质

    公开(公告)号:CN111709247B

    公开(公告)日:2023-04-07

    申请号:CN202010430339.0

    申请日:2020-05-20

    发明人: 胡哲 彭程 罗雪峰

    摘要: 本申请公开了数据集处理方法、装置、电子设备和存储介质,涉及大数据领域。具体实现方案为:获取目标用户提供的多个文本区块,从多个文本区块中获取与目标文本满足预设相似匹配条件的第一文本集合;从第一文本集合中获取与目标文本不属于相同文本区块的第二文本集合;根据第二文本集合中每条文本归属的候选文本区块内容生成目标文本的负样本集合;根据目标文本归属的目标文本区块内容生成目标文本的正样本集合;根据负样本集合和正样本集合生成目标用户的数据集,根据数据集训练匹配模型识别文本相似度。由此,通过相似匹配条件匹配出文本集合后再获取正样本集合和负样本集合生成数据集,提高数据集的有效性,从而提高匹配模型的鲁棒性。

    唤醒语料的获取方法和装置

    公开(公告)号:CN110491394B

    公开(公告)日:2022-06-17

    申请号:CN201910865292.8

    申请日:2019-09-12

    摘要: 本申请公开了唤醒语料的获取方法和装置,涉及云计算领域以及语音技术。具体实现方案为:获取多个第一唤醒语料和多个第二唤醒语料;根据该多个第一唤醒语料获取多个测试唤醒模型;采用该多个第二唤醒语料验证每个该测试唤醒模型,以获取每个该测试唤醒模型的唤醒分数;根据各该测试唤醒模型的唤醒分数,确定该多个第一唤醒语料中的多个目标唤醒语料;该多个目标唤醒语料用于获取目标唤醒模型,该目标唤醒模型用于识别语音信号中的唤醒词。本申请可以使得确定的多个用于训练唤醒模型的目标唤醒语料中的高质量唤醒语料的比例大大提高,进而提高了唤醒模型识别唤醒词的准确度。

    文本分类方法、装置、设备以及存储介质

    公开(公告)号:CN111767729A

    公开(公告)日:2020-10-13

    申请号:CN202010608375.1

    申请日:2020-06-30

    摘要: 本申请公开了文本分类方法、装置、设备以及存储介质,涉及自然语言处理、深度学习技术、人工智能领域。具体实现方案为:获取目标文本;确定目标文本的向量矩阵;根据向量矩阵,确定胶囊向量矩阵,其中,胶囊向量矩阵中的每个胶囊向量包括至少两个值;根据胶囊向量矩阵中的各胶囊向量,确定目标文本的句向量;根据句向量以及预设的至少两个类别向量,确定目标文本的类别。本实现方式可以利用胶囊网络来准确地提取目标文本的语义信息,从而能够实现更准确的分类,能够实现对用户态度的识别,为提升人机对话系统的质量提供基础。