-
公开(公告)号:CN112800032B
公开(公告)日:2021-08-31
申请号:CN202110205058.X
申请日:2021-02-24
申请人: 北京智源人工智能研究院
IPC分类号: G06F16/21 , G06F16/332 , G06F40/18
摘要: 本发明公开了一种基于表格数据的FAQ知识库自动构建方法和装置,该方法包括:将表格数据区分为规范化表格和非规范化表格;利用预先训练得到的SQL语句生成器和第一问题生成器,根据所述规范化表格生成第一问答对;利用预先训练得到的自然语句生成器和第二问题生成器,根据所述非规范化表格生成第二问答对;对生成的第一问答对和第二问答对进行筛选,根据筛选出的问答对构建FAQ知识库。不仅节省了大量的人力和时间成本,而且在自动问答系统冷启动阶段生成了有效覆盖的FAQ知识库。另外,该方法能够利用规范化的表格数据和非规范化表格数据生成问答对,因此,适用于利用政务领域表格数据构建FAQ知识库。
-
公开(公告)号:CN112784022B
公开(公告)日:2021-10-19
申请号:CN202011634013.6
申请日:2020-12-31
申请人: 北京智源人工智能研究院
IPC分类号: G06F16/332 , G06K9/62 , G06Q50/26
摘要: 本发明公开了一种政务FAQ知识库自动构建方法、装置和电子设备。该方法包括:生成第一训练数据集;根据第一训练数据集训练关键语句提取器,并得到第二训练数据集;根据第二训练数据集训练问题生成器;利用训练好的关键语句提取器从无标注的政务文本中提取出关键语句;利用训练好的问题生成器根据所述政务文本和所提取的关键语句生成问答对;对生成的问答对进行筛选,将筛选出的问答对添加进政务FAQ知识库。不仅可节约大量的人工和时间成本完成FAQ文档的建立,而且自动生成的问答对文档的覆盖率更高,可提升冷启动阶段用户的使用体验;同时提高了问题生成的多样性,也很好的控制了问题生成的准确率和质量。
-
公开(公告)号:CN111930928B
公开(公告)日:2021-08-27
申请号:CN202011110454.6
申请日:2020-10-16
申请人: 北京智源人工智能研究院
IPC分类号: G06F16/335 , G06F40/216 , G06F40/284 , G06F40/289
摘要: 本发明公开了一种文本检索结果评分方法、检索方法和装置。评分方法包括:根据用户输入的检索语句确定其中包含的词的标准次序;根据所述标准次序计算检索到的语料的逆序数;根据所述语料中包含所述检索语句中的词的数量和所述逆序数,计算逆序率;根据所述逆序率计算所述语料的评分。通过加入逆序数和组合数,实现了语序对检索结果评分的影响,进而实现了对相似语料的敏感反应,从而保证对用户的输入检索出更加准确的文档。
-
公开(公告)号:CN112990297A
公开(公告)日:2021-06-18
申请号:CN202110262221.6
申请日:2021-03-10
申请人: 北京智源人工智能研究院 , 中国人民大学
IPC分类号: G06K9/62 , G06N3/04 , G06N3/08 , G06F16/583 , G06F16/33
摘要: 本申请提出一种多模态预训练模型的训练方法、应用方法及装置,该方法包括:构建双塔结构的多模态预训练模型;获取包括正样本图文对的正样本数据集和包括负样本图文对的负样本数据集;根据正样本数据集和负样本数据集训练多模态预训练模型,多模态预训练模型包括用于对正样本图文对和负样本图文对进行图文相似度对比学习的跨模态对比学习模块。本申请中多模态预训练模型采用双塔结构和跨模态对比学习算法,对图像和文本模态都构建大量负样本,模型表达能力强,提高了图文对的处理精度。该模型计算图文间的整体相似度,根据相似度判断图文是否对应,基于图文弱相关假设,更贴合实际应用中图文对中图文间语义弱相关的实际情况。
-
公开(公告)号:CN112988952A
公开(公告)日:2021-06-18
申请号:CN202110421266.3
申请日:2021-04-20
申请人: 北京智源人工智能研究院
IPC分类号: G06F16/31 , G06F16/33 , G06F16/332 , G06N3/04 , G06N3/08
摘要: 本发明公开了一种多层级长文本向量检索方法、装置和电子设备。所述方法包括:将开放领域的长文本切分为文本片段;利用训练好的编码器将所述文本片段和搜索请求分别编码为稠密向量;利用文本片段和搜索请求的稠密向量,基于向量检索,查询得到与所述搜索请求相似的目标文本片段;其中,所述编码器是利用包括多层级文本片段的训练数据集训练得到的。通过考虑训练数据集中的文本片段与搜索请求的多层级相关性,使得得到的模型很容易在多个相关片段中选取到合适的片段,显著提高了召回效率。
-
公开(公告)号:CN112800032A
公开(公告)日:2021-05-14
申请号:CN202110205058.X
申请日:2021-02-24
申请人: 北京智源人工智能研究院
IPC分类号: G06F16/21 , G06F16/332 , G06F40/18
摘要: 本发明公开了一种基于表格数据的FAQ知识库自动构建方法和装置,该方法包括:将表格数据区分为规范化表格和非规范化表格;利用预先训练得到的SQL语句生成器和第一问题生成器,根据所述规范化表格生成第一问答对;利用预先训练得到的自然语句生成器和第二问题生成器,根据所述非规范化表格生成第二问答对;对生成的第一问答对和第二问答对进行筛选,根据筛选出的问答对构建FAQ知识库。不仅节省了大量的人力和时间成本,而且在自动问答系统冷启动阶段生成了有效覆盖的FAQ知识库。另外,该方法能够利用规范化的表格数据和非规范化表格数据生成问答对,因此,适用于利用政务领域表格数据构建FAQ知识库。
-
公开(公告)号:CN112347793B
公开(公告)日:2021-05-14
申请号:CN202011595286.4
申请日:2020-12-30
申请人: 北京智源人工智能研究院
IPC分类号: G06F40/30 , G06F40/194 , G06F40/56 , G06N20/00
摘要: 本发明公开了一种基于规则与学习的语义解析方法、装置和电子设备。该方法包括:基于规则集中的原有规则识别自然语言语句,生成结构化语句;判断所述结构化语句是否能完整的表达所述自然语言语句的语义,如果不能,则获取所述自然语言语句和所述结构化语句的差异文本,并将所述差异文本输入预先训练的学习模型,生成新的规则;利用所述新的规则更新所述规则集。采用本发明提供的方法利用机器学习得到了新的规则,扩展了自然语言的解析范围,使得不断更新的规则集不仅可以识别规则范围内的文本,还能灵活的随着语言发展而改变;而且该方法的可扩展性强,泛化能力强,解决了基于规则解析局限性的问题。
-
公开(公告)号:CN112035730A
公开(公告)日:2020-12-04
申请号:CN202011221206.9
申请日:2020-11-05
申请人: 北京智源人工智能研究院
IPC分类号: G06F16/953 , G06F16/33 , G06F16/36 , G06F40/232 , G06F40/247 , G06F40/30
摘要: 本发明公开了一种语义检索方法、装置及电子设备,方法包括:接收用户发送的查询信息;对查询信息中的文本进行纠错,获得纠正文本;对纠正文本进行用户意图分析,确定所识别的用户意图的第一分值;对于简单事实问答,基于预先构建的知识图谱进行检索,获得第一候选答案集,并根据相关度确定所述第一候选答案集中的各个候选答案的第二分值;对于常见问题解答,基于预先构建的向量化FAQ问答对进行检索,获得第二候选答案集,并根据相关度确定第二候选答案集中的各个候选答案的第三分值;根据第一分值、第二分值以及第三分值对候选答案进行排序得到答案;该方法相比于基于关键词的检索能更好的满足用户查询需求。
-
公开(公告)号:CN111738251B
公开(公告)日:2020-12-04
申请号:CN202010867945.9
申请日:2020-08-26
申请人: 北京智源人工智能研究院
摘要: 本发明公开了一种融合语言模型的光学字符识别方法、装置和电子设备。该方法包括:提取待识别文字图片的视觉特征向量;对所述视觉特征向量进行预分类得到预分类文本序列;利用预先训练的语言模型,根据所述预分类文本序列提取语义特征向量;根据所述视觉特征向量和语义特征向量对所述待识别的文字图片进行最终分类,得到识别结果。本发明提高了OCR模型文本识别的准确率以及对于质量较差的文本图片的鲁棒性。
-
公开(公告)号:CN111967247A
公开(公告)日:2020-11-20
申请号:CN202011142224.8
申请日:2020-10-23
申请人: 北京智源人工智能研究院
IPC分类号: G06F40/253 , G06F40/30 , G06F40/289 , G06F8/41
摘要: 本发明公开了一种基于函数声明的自然语言语义表示方法、装置和电子设备。该方法包括:对自然语言序列进行分词处理,分词结果中的每个词与预生成的上下文无关语法实例中的终结符相对应;根据所述上下文无关语法实例获取与所述终结符关联的函数声明;利用所述函数声明构建所述自然语言序列的语义树;采用高阶函数表达所述语义树,执行得到所述自然语言序列的语义表达结果。不仅能够实现不同语法的自由组合、嵌套,进而实现对复杂自然语言的语义结构表示;而且函数的具体实现方式与函数声明的语义表示过程分离,复用性好,灵活性高;另外,语义表示的结果能够被计算机执行的函数嵌套表示和实现,能够直接执行来完成具体任务。
-
-
-
-
-
-
-
-
-