多模态预训练模型的训练方法、应用方法及装置

    公开(公告)号:CN112990297B

    公开(公告)日:2024-02-02

    申请号:CN202110262221.6

    申请日:2021-03-10

    摘要: 况。本申请提出一种多模态预训练模型的训练方法、应用方法及装置,该方法包括:构建双塔结构的多模态预训练模型;获取包括正样本图文对的正样本数据集和包括负样本图文对的负样本数据集;根据正样本数据集和负样本数据集训练多模态预训练模型,多模态预训练模型包括用于对正样本图文对和负样本图文对进行图文相似度对比学习的跨模态对比学习模块。本申请中多模态预训练模型采用双塔结构和跨模态对比学习算法,对图像和文本模态都构建大量负样本,模型表达能力强,提高了图文对的处理精度。该(56)对比文件Junhua Mao 等.Training and EvaluatingMultimodal Word Embeddings with Large-scale Web Annotated Images《.MachineLearning》.2016,1-9.Yu Liu.Learning a Recurrent ResidualFusion Network for Multimodal Matching.《2017 IEEE International Conference onComputer Vision (ICCV)》.2017,1-10.

    多模态预训练模型的训练方法、应用方法及装置

    公开(公告)号:CN112990297A

    公开(公告)日:2021-06-18

    申请号:CN202110262221.6

    申请日:2021-03-10

    摘要: 本申请提出一种多模态预训练模型的训练方法、应用方法及装置,该方法包括:构建双塔结构的多模态预训练模型;获取包括正样本图文对的正样本数据集和包括负样本图文对的负样本数据集;根据正样本数据集和负样本数据集训练多模态预训练模型,多模态预训练模型包括用于对正样本图文对和负样本图文对进行图文相似度对比学习的跨模态对比学习模块。本申请中多模态预训练模型采用双塔结构和跨模态对比学习算法,对图像和文本模态都构建大量负样本,模型表达能力强,提高了图文对的处理精度。该模型计算图文间的整体相似度,根据相似度判断图文是否对应,基于图文弱相关假设,更贴合实际应用中图文对中图文间语义弱相关的实际情况。

    一种政务FAQ知识库自动构建方法、装置和电子设备

    公开(公告)号:CN112784022A

    公开(公告)日:2021-05-11

    申请号:CN202011634013.6

    申请日:2020-12-31

    IPC分类号: G06F16/332 G06K9/62 G06Q50/26

    摘要: 本发明公开了一种政务FAQ知识库自动构建方法、装置和电子设备。该方法包括:生成第一训练数据集;根据第一训练数据集训练关键语句提取器,并得到第二训练数据集;根据第二训练数据集训练问题生成器;利用训练好的关键语句提取器从无标注的政务文本中提取出关键语句;利用训练好的问题生成器根据所述政务文本和所提取的关键语句生成问答对;对生成的问答对进行筛选,将筛选出的问答对添加进政务FAQ知识库。不仅可节约大量的人工和时间成本完成FAQ文档的建立,而且自动生成的问答对文档的覆盖率更高,可提升冷启动阶段用户的使用体验;同时提高了问题生成的多样性,也很好的控制了问题生成的准确率和质量。

    一种基于规则与学习的语义解析方法、装置和电子设备

    公开(公告)号:CN112347793A

    公开(公告)日:2021-02-09

    申请号:CN202011595286.4

    申请日:2020-12-30

    摘要: 本发明公开了一种基于规则与学习的语义解析方法、装置和电子设备。该方法包括:基于规则集中的原有规则识别自然语言语句,生成结构化语句;判断所述结构化语句是否能完整的表达所述自然语言语句的语义,如果不能,则获取所述自然语言语句和所述结构化语句的差异文本,并将所述差异文本输入预先训练的学习模型,生成新的规则;利用所述新的规则更新所述规则集。采用本发明提供的方法利用机器学习得到了新的规则,扩展了自然语言的解析范围,使得不断更新的规则集不仅可以识别规则范围内的文本,还能灵活的随着语言发展而改变;而且该方法的可扩展性强,泛化能力强,解决了基于规则解析局限性的问题。

    一种政务FAQ知识库自动构建方法、装置和电子设备

    公开(公告)号:CN112784022B

    公开(公告)日:2021-10-19

    申请号:CN202011634013.6

    申请日:2020-12-31

    IPC分类号: G06F16/332 G06K9/62 G06Q50/26

    摘要: 本发明公开了一种政务FAQ知识库自动构建方法、装置和电子设备。该方法包括:生成第一训练数据集;根据第一训练数据集训练关键语句提取器,并得到第二训练数据集;根据第二训练数据集训练问题生成器;利用训练好的关键语句提取器从无标注的政务文本中提取出关键语句;利用训练好的问题生成器根据所述政务文本和所提取的关键语句生成问答对;对生成的问答对进行筛选,将筛选出的问答对添加进政务FAQ知识库。不仅可节约大量的人工和时间成本完成FAQ文档的建立,而且自动生成的问答对文档的覆盖率更高,可提升冷启动阶段用户的使用体验;同时提高了问题生成的多样性,也很好的控制了问题生成的准确率和质量。

    一种多层级长文本向量检索方法、装置和电子设备

    公开(公告)号:CN112988952A

    公开(公告)日:2021-06-18

    申请号:CN202110421266.3

    申请日:2021-04-20

    摘要: 本发明公开了一种多层级长文本向量检索方法、装置和电子设备。所述方法包括:将开放领域的长文本切分为文本片段;利用训练好的编码器将所述文本片段和搜索请求分别编码为稠密向量;利用文本片段和搜索请求的稠密向量,基于向量检索,查询得到与所述搜索请求相似的目标文本片段;其中,所述编码器是利用包括多层级文本片段的训练数据集训练得到的。通过考虑训练数据集中的文本片段与搜索请求的多层级相关性,使得得到的模型很容易在多个相关片段中选取到合适的片段,显著提高了召回效率。

    基于表格数据的FAQ知识库自动构建方法和装置

    公开(公告)号:CN112800032A

    公开(公告)日:2021-05-14

    申请号:CN202110205058.X

    申请日:2021-02-24

    摘要: 本发明公开了一种基于表格数据的FAQ知识库自动构建方法和装置,该方法包括:将表格数据区分为规范化表格和非规范化表格;利用预先训练得到的SQL语句生成器和第一问题生成器,根据所述规范化表格生成第一问答对;利用预先训练得到的自然语句生成器和第二问题生成器,根据所述非规范化表格生成第二问答对;对生成的第一问答对和第二问答对进行筛选,根据筛选出的问答对构建FAQ知识库。不仅节省了大量的人力和时间成本,而且在自动问答系统冷启动阶段生成了有效覆盖的FAQ知识库。另外,该方法能够利用规范化的表格数据和非规范化表格数据生成问答对,因此,适用于利用政务领域表格数据构建FAQ知识库。

    一种基于规则与学习的语义解析方法、装置和电子设备

    公开(公告)号:CN112347793B

    公开(公告)日:2021-05-14

    申请号:CN202011595286.4

    申请日:2020-12-30

    摘要: 本发明公开了一种基于规则与学习的语义解析方法、装置和电子设备。该方法包括:基于规则集中的原有规则识别自然语言语句,生成结构化语句;判断所述结构化语句是否能完整的表达所述自然语言语句的语义,如果不能,则获取所述自然语言语句和所述结构化语句的差异文本,并将所述差异文本输入预先训练的学习模型,生成新的规则;利用所述新的规则更新所述规则集。采用本发明提供的方法利用机器学习得到了新的规则,扩展了自然语言的解析范围,使得不断更新的规则集不仅可以识别规则范围内的文本,还能灵活的随着语言发展而改变;而且该方法的可扩展性强,泛化能力强,解决了基于规则解析局限性的问题。