-
公开(公告)号:CN112784022A
公开(公告)日:2021-05-11
申请号:CN202011634013.6
申请日:2020-12-31
申请人: 北京智源人工智能研究院
IPC分类号: G06F16/332 , G06K9/62 , G06Q50/26
摘要: 本发明公开了一种政务FAQ知识库自动构建方法、装置和电子设备。该方法包括:生成第一训练数据集;根据第一训练数据集训练关键语句提取器,并得到第二训练数据集;根据第二训练数据集训练问题生成器;利用训练好的关键语句提取器从无标注的政务文本中提取出关键语句;利用训练好的问题生成器根据所述政务文本和所提取的关键语句生成问答对;对生成的问答对进行筛选,将筛选出的问答对添加进政务FAQ知识库。不仅可节约大量的人工和时间成本完成FAQ文档的建立,而且自动生成的问答对文档的覆盖率更高,可提升冷启动阶段用户的使用体验;同时提高了问题生成的多样性,也很好的控制了问题生成的准确率和质量。
-
公开(公告)号:CN112347793A
公开(公告)日:2021-02-09
申请号:CN202011595286.4
申请日:2020-12-30
申请人: 北京智源人工智能研究院
IPC分类号: G06F40/30 , G06F40/194 , G06F40/56 , G06N20/00
摘要: 本发明公开了一种基于规则与学习的语义解析方法、装置和电子设备。该方法包括:基于规则集中的原有规则识别自然语言语句,生成结构化语句;判断所述结构化语句是否能完整的表达所述自然语言语句的语义,如果不能,则获取所述自然语言语句和所述结构化语句的差异文本,并将所述差异文本输入预先训练的学习模型,生成新的规则;利用所述新的规则更新所述规则集。采用本发明提供的方法利用机器学习得到了新的规则,扩展了自然语言的解析范围,使得不断更新的规则集不仅可以识别规则范围内的文本,还能灵活的随着语言发展而改变;而且该方法的可扩展性强,泛化能力强,解决了基于规则解析局限性的问题。
-
公开(公告)号:CN111881264B
公开(公告)日:2020-12-15
申请号:CN202011037021.2
申请日:2020-09-28
申请人: 北京智源人工智能研究院
摘要: 本发明公开了一种开放领域问答任务中长文本检索的方法和电子设备。该方法包括:利用预先训练的编码器将开放领域文档和搜索请求分别编码为文档稠密向量和请求稠密向量;其中,编码器采用历史搜索请求、正样本和负样本作为样本数据进行训练;根据文档稠密向量与请求稠密向量计算搜索请求与开放领域文档的相似度得分,并选择相似度得分符合要求的开放领域文档为候选文档;从候选文档中选择搜索请求对应的目标文档。本发明的复用性强;同一指代的词附带了近似的语义表达;有效地改善了一词多义给搜索带来的歧义问题;模型训练效果好;对于跨领域文档有较强的泛化能力;在搜索效果、搜索性能、易用性、维护性等方面有较大提升和提升潜力。
-
公开(公告)号:CN112036406A
公开(公告)日:2020-12-04
申请号:CN202011221190.1
申请日:2020-11-05
申请人: 北京智源人工智能研究院
摘要: 本发明公开了一种图像文档的文本抽取方法、装置及电子设备方法包括:通过光学字符识别模型对图像文档进行识别;根据所识别的信息生成组合向量;将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;其中,根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。该方法能够有效解决现有的文档抽取方法造成的结构信息混乱的问题。
-
公开(公告)号:CN111930928A
公开(公告)日:2020-11-13
申请号:CN202011110454.6
申请日:2020-10-16
申请人: 北京智源人工智能研究院
IPC分类号: G06F16/335 , G06F40/216 , G06F40/284 , G06F40/289
摘要: 本发明公开了一种文本检索结果评分方法、检索方法和装置。评分方法包括:根据用户输入的检索语句确定其中包含的词的标准次序;根据所述标准次序计算检索到的语料的逆序数;根据所述语料中包含所述检索语句中的词的数量和所述逆序数,计算逆序率;根据所述逆序率计算所述语料的评分。通过加入逆序数和组合数,实现了语序对检索结果评分的影响,进而实现了对相似语料的敏感反应,从而保证对用户的输入检索出更加准确的文档。
-
公开(公告)号:CN111881264A
公开(公告)日:2020-11-03
申请号:CN202011037021.2
申请日:2020-09-28
申请人: 北京智源人工智能研究院
摘要: 本发明公开了一种开放领域问答任务中长文本检索的方法和电子设备。该方法包括:利用预先训练的编码器将开放领域文档和搜索请求分别编码为文档稠密向量和请求稠密向量;其中,编码器采用历史搜索请求、正样本和负样本作为样本数据进行训练;根据文档稠密向量与请求稠密向量计算搜索请求与开放领域文档的相似度得分,并选择相似度得分符合要求的开放领域文档为候选文档;从候选文档中选择搜索请求对应的目标文档。本发明的复用性强;同一指代的词附带了近似的语义表达;有效地改善了一词多义给搜索带来的歧义问题;模型训练效果好;对于跨领域文档有较强的泛化能力;在搜索效果、搜索性能、易用性、维护性等方面有较大提升和提升潜力。
-
公开(公告)号:CN111738251A
公开(公告)日:2020-10-02
申请号:CN202010867945.9
申请日:2020-08-26
申请人: 北京智源人工智能研究院
摘要: 本发明公开了一种融合语言模型的光学字符识别方法、装置和电子设备。该方法包括:提取待识别文字图片的视觉特征向量;对所述视觉特征向量进行预分类得到预分类文本序列;利用预先训练的语言模型,根据所述预分类文本序列提取语义特征向量;根据所述视觉特征向量和语义特征向量对所述待识别的文字图片进行最终分类,得到识别结果。本发明提高了OCR模型文本识别的准确率以及对于质量较差的文本图片的鲁棒性。
-
-
-
-
-
-