-
公开(公告)号:CN115270771A
公开(公告)日:2022-11-01
申请号:CN202211219267.0
申请日:2022-10-08
IPC分类号: G06F40/232 , G06N3/08
摘要: 本发明涉及自然语言理解领域,公开了一种细粒度自适应字音预测任务辅助的中文拼写纠错方法,在多模态语言模型进行中文拼写纠错的基础上,为模型设计了一个细粒度的发音预测的辅助任务,并且为辅助任务设置一个自适应权重,可以引导模型正确地利用发音信息帮助中文拼写纠错;本发明还设计一种有约束的迭代策略,在能够解决具有连续错别字的困难样本的同时,也能一定程度上避免过度纠正的问题。
-
公开(公告)号:CN115270771B
公开(公告)日:2023-01-17
申请号:CN202211219267.0
申请日:2022-10-08
IPC分类号: G06F40/232 , G06N3/08
摘要: 本发明涉及自然语言理解领域,公开了一种细粒度自适应字音预测任务辅助的中文拼写纠错方法,在多模态语言模型进行中文拼写纠错的基础上,为模型设计了一个细粒度的发音预测的辅助任务,并且为辅助任务设置一个自适应权重,可以引导模型正确地利用发音信息帮助中文拼写纠错;本发明还设计一种有约束的迭代策略,在能够解决具有连续错别字的困难样本的同时,也能一定程度上避免过度纠正的问题。
-
公开(公告)号:CN116578638A
公开(公告)日:2023-08-11
申请号:CN202310592502.7
申请日:2023-05-23
IPC分类号: G06F16/26 , G06F16/28 , G06F18/214 , G06F18/22 , G06N3/0464 , G06N3/08
摘要: 本发明涉及知识图谱技术领域,公开了一种基于路径邻域聚合和难负样本挖掘的关系推理方法,包括邻域编码、负样本筛选,路径选择和路径‑邻域聚合。在邻域编码中,本发明设计了邻域编码器,自动编码实体一跳内邻域关系,获得实体自身的表示;在负样本筛选中,本发明用单个实体表示,设计了一种获取难负样本的办法;在路径选择中,本发明基于待预测关系两端的实体对表示,选择出与待预测关系关联度最高的路径表示;最终在路径‑邻域聚合中,本发明设计了一种聚合方法以利用路径表示和实体对表示,实现归纳式关系推理。
-
公开(公告)号:CN117787266A
公开(公告)日:2024-03-29
申请号:CN202311810975.6
申请日:2023-12-26
申请人: 人民网股份有限公司
IPC分类号: G06F40/279 , G06F40/216 , G06F16/35
摘要: 本发明实施例公开了一种基于预训练知识嵌入的大语言模型文本纠错方法及装置,方法包括:将待纠错文本输入至预训练得到的知识库模型,将文本纠错任务信息输入至任务编码器,经由任务适配器将知识库模型的输出与任务编码器的输出进行连接,得到知识嵌入特征向量;将待纠错文本以及知识嵌入特征向量输入至预训练得到的预设纠错大模型,得到纠错后的文本。通过任务适配器和知识库模型,将知识库中专业的知识融入纠错大模型中,使得纠错大模型可以更准确地处理文本纠错任务,提升纠错精度和效率。
-
公开(公告)号:CN116884015A
公开(公告)日:2023-10-13
申请号:CN202310913401.5
申请日:2023-07-24
申请人: 人民网股份有限公司
IPC分类号: G06V30/19 , G06V30/413 , G06N3/0464 , G06N3/09 , G06V10/82
摘要: 本发明公开了一种标志检测方法、装置、计算设备及存储介质,涉及计算机技术领域,方法包括:对标志数据集中的各个训练样本图像进行预分类处理,得到各个训练样本图像的预分类标签;根据各个训练样本图像及其预分类标签训练标志检测模型中的第一子模型,根据各个训练样本图像及其原始分类标签训练标志检测模型中的第二子模型,直至标志检测模型的损失函数满足预设条件;其中,标志检测模型的损失函数由第一子模型的损失函数和第二子模型的损失函数构成;将待预测图像输入至训练后的标志检测模型中进行处理,得到待预测图像的标志检测结果。通过上述方式,能够增强标志检测模型对不同形式标志的特征表达能力,提升模型的检测和识别性能。
-
公开(公告)号:CN116186203B
公开(公告)日:2023-10-10
申请号:CN202310225088.6
申请日:2023-03-01
申请人: 人民网股份有限公司
IPC分类号: G06F16/33 , G06F40/289 , G06F18/22
摘要: 本发明公开了一种文本检索方法、装置、计算设备及计算机存储介质,其中方法包括:对用户输入的检索语句进行分词以获得多个词语;计算检索语句与文本库中的各个文本的相似度得分,对各个文本进行第一次排序,根据第一次排序结果获得多个目标文本;针对任一目标文本中的任一当前词语,查找该目标文本中当前词语的下一词语,根据当前词语与下一词语的距离分别计算当前词语和下一词语的距离累计得分;以及,根据目标文本中各个词语的距离累计得分计算该目标文本相对于检索语句的邻近度得分;对多个目标文本进行第二次排序,将第二次排序后的多个目标文本返回给用户。本方法能够使检索结果尽可能覆盖所有的查询片段,并且实现与检索语句的语义一致性。
-
公开(公告)号:CN116109891B
公开(公告)日:2023-07-25
申请号:CN202310142885.8
申请日:2023-02-08
申请人: 人民网股份有限公司
IPC分类号: G06V10/774 , G06V10/22 , G06T7/11 , G06T7/13 , G06T3/00
摘要: 本发明公开了一种图像数据扩增方法、装置、计算设备及存储介质。方法包括:获取包含柔性目标的基准图片;确定基准图片的基准点选取区,从基准点选取区中提取第一数量的第一像素点作为基准点;针对基准点,对该基准点进行位置偏移后生成变形点,并生成变形点对;采用薄板样条插值算法对各个变形点对中基准点以及变形点的坐标进行处理后,获得扩增图片至基准图片的映射函数;针对扩增图片中任一第二像素点,基于映射函数确定第二像素点映射的第一像素点,根据该第一像素点的像素值生成该第二像素点的像素值以生成扩增图片。采用本方案,能够获得柔性目标在柔性变形后的扩增图片,提高柔性目标的样本多样性,提升模型的泛化能力以及检测精度。
-
公开(公告)号:CN116012924A
公开(公告)日:2023-04-25
申请号:CN202310095642.3
申请日:2023-01-30
申请人: 人民网股份有限公司
IPC分类号: G06V40/16 , G06V10/774 , G06V10/74 , G06F16/535
摘要: 本申请公开了一种人脸图库构建方法、装置及计算设备,该方法包括:采集与人物关键词相匹配的至少一个人物图片;检测是否存在与人物关键词相匹配的至少一个可信人物图片;若是,根据至少一个人物图片与至少一个可信人物图片的人脸相似度,从至少一个人物图片中筛选至少一个模板图片;若否,从至少一个人物图片中筛选至少一个第一候选图片,将至少一个第一候选图片反馈至标注用户,以供标注用户在至少一个第一候选图片中标记至少一个模板图片;根据至少一个模板图片以及人物关键词,构建人脸图库。通过上述方式,本申请实现了人脸数据的采集及标注,整个过程中人工只需要参与很少的确认工作,减少了人为干预,提升了构建人脸图库的效率。
-
公开(公告)号:CN114818891B
公开(公告)日:2022-11-18
申请号:CN202210390623.9
申请日:2022-04-14
申请人: 人民网股份有限公司
IPC分类号: G06K9/62 , G06F40/289 , G06F40/211
摘要: 本发明公开了一种小样本多标签文本分类模型训练方法、小样本多标签文本分类方法、装置、计算设备及计算机存储介质。该方法通过从文本标签对应的标注样本文本中提取关键短语,根据关键短语实现提示模板的扩充,并基于提示模板来实现数据增广,从而实现了基于小样本的标注样本文本进行模型训练,克服了大规模有标注的文本不可得的缺陷,而且提升了文本分类模型的训练效率,无需人工花费较长时间进行标注,降低了人工成本以及时间成本。
-
公开(公告)号:CN113553418A
公开(公告)日:2021-10-26
申请号:CN202110848206.X
申请日:2021-07-27
IPC分类号: G06F16/332 , G06F16/583 , G06F40/211 , G06F40/30 , G06F40/253 , G06N3/04 , G06N3/08
摘要: 本发明公开了一种基于多模态学习的视觉对话生成方法及装置,方法包括:利用关键信息进行全局上下文信息语义补充,提取与当前问题相关的历史对话信息,获取精简历史信息;再提取与文本信息相关的视觉区域信息,获取精简视觉信息;将多模态问题相关信息进行融合得到多模态问题相关信息,作为答案推理的重要元素;用文本和视觉的问题相关信息对三元组结构化表征进行语义补全,以补全在多模态信息精简化过程中损失掉的有效信息;将精简历史信息、精简视觉信息、补全后的多模态问题相关信息进行特征融合;将特征融合信息送入解码器中推理得到与当前问题相关的答案。装置包括:处理器和存储器。本发明采用多模态信息交互,对文本和视觉信息发掘细粒度关系信息。
-
-
-
-
-
-
-
-
-