-
公开(公告)号:CN114925170A
公开(公告)日:2022-08-19
申请号:CN202210577416.4
申请日:2022-05-25
摘要: 本发明公开了一种文本校对模型训练方法,基于已标注错误类型标注数据集,训练得到数据增强模型;数据增强模型训练输入数据包含错误位置的文本被替换为掩码标记第一向量以及被赋值为错误类型第二向量;基于各个错误类型特征分布和一部分未标注文本数据构建指定错误类型的预测输入数据;将预测输入数据输入给训练得到的数据增强模型,得到预测输出数据;对另一部分未标注文本数据进行随机删除操作;将预测输出数据和随机删除操作所得数据加入到标注数据集中,得到拓展数据集;利用拓展数据集,训练得到文本校对模型。本发明将错误类型作为额外的输入生成指定类型错误文本拓展数据集,减少了训练数据生成的随机性,解决了训练数据数量少的问题。
-
公开(公告)号:CN116611514B
公开(公告)日:2023-10-10
申请号:CN202310883308.4
申请日:2023-07-19
IPC分类号: G06N5/02 , G06F40/30 , G06F40/211 , G06F40/284 , G06F40/289 , G06F16/35 , G06F40/295
摘要: 本发明涉及人工智能技术领域,公开了一种基于数据驱动的价值取向评估体系构建方法,包括:数据获取;属性获取;标签语义知识体系构建:结合n‑gram属性和文章属性,对各个n‑gram词汇及文章语料建立连接,构建标签语义知识体系;标签语义知识体系包括:n‑gram词汇与文章语料的关联性,以及n‑gram词汇间的关联性;本发明基于社交媒体广泛的数据语料驱动,搭建了一套数据语料的价值取向相关属性的分析处理工具,实现可实时更新的价值取向评估体系的构建,为实现社交媒体价值取向的维护提供基础。
-
公开(公告)号:CN114925170B
公开(公告)日:2023-04-07
申请号:CN202210577416.4
申请日:2022-05-25
IPC分类号: G06F16/33 , G06F40/58 , G06F18/214
摘要: 本发明公开了一种文本校对模型训练方法,基于已标注错误类型标注数据集,训练得到数据增强模型;数据增强模型训练输入数据包含错误位置的文本被替换为掩码标记第一向量以及被赋值为错误类型第二向量;基于各个错误类型特征分布和一部分未标注文本数据构建指定错误类型的预测输入数据;将预测输入数据输入给训练得到的数据增强模型,得到预测输出数据;对另一部分未标注文本数据进行随机删除操作;将预测输出数据和随机删除操作所得数据加入到标注数据集中,得到拓展数据集;利用拓展数据集,训练得到文本校对模型。本发明将错误类型作为额外的输入生成指定类型错误文本拓展数据集,减少了训练数据生成的随机性,解决了训练数据数量少的问题。
-
公开(公告)号:CN116681056B
公开(公告)日:2024-01-26
申请号:CN202310596067.5
申请日:2023-05-24
IPC分类号: G06F40/205 , G06F40/284 , G06F16/335 , G06F16/31
摘要: 本发明实施例公开了一种基于价值量表的文本价值计算方法及装置,方法包括:对文本进行分词处理,得到包含多个关键词的关键词集合;基于预设价值量表,遍历关键词集合,查询与关键词匹配的节点关键词,得到不同级别的匹配节点集合;其中,预设价值量表包括预设多个级别节点;每个节点包括节点关键词;根据不同级别的匹配节点集合的数量及权重,计算得到文本的价值数据。将文本分词,通过匹配文本中的关键词与预设价值量表中节点关键词,确定文本包含的不同级别的匹配节点集合,进而根据不同级别的匹配节点集合的数量及权重,计算得到文本的价值数据,实现基于预设价值量表来确定文本价值。
-
公开(公告)号:CN116681056A
公开(公告)日:2023-09-01
申请号:CN202310596067.5
申请日:2023-05-24
IPC分类号: G06F40/205 , G06F40/284 , G06F16/335 , G06F16/31
摘要: 本发明实施例公开了一种基于价值量表的文本价值计算方法及装置,方法包括:对文本进行分词处理,得到包含多个关键词的关键词集合;基于预设价值量表,遍历关键词集合,查询与关键词匹配的节点关键词,得到不同级别的匹配节点集合;其中,预设价值量表包括预设多个级别节点;每个节点包括节点关键词;根据不同级别的匹配节点集合的数量及权重,计算得到文本的价值数据。将文本分词,通过匹配文本中的关键词与预设价值量表中节点关键词,确定文本包含的不同级别的匹配节点集合,进而根据不同级别的匹配节点集合的数量及权重,计算得到文本的价值数据,实现基于预设价值量表来确定文本价值。
-
公开(公告)号:CN115270771B
公开(公告)日:2023-01-17
申请号:CN202211219267.0
申请日:2022-10-08
IPC分类号: G06F40/232 , G06N3/08
摘要: 本发明涉及自然语言理解领域,公开了一种细粒度自适应字音预测任务辅助的中文拼写纠错方法,在多模态语言模型进行中文拼写纠错的基础上,为模型设计了一个细粒度的发音预测的辅助任务,并且为辅助任务设置一个自适应权重,可以引导模型正确地利用发音信息帮助中文拼写纠错;本发明还设计一种有约束的迭代策略,在能够解决具有连续错别字的困难样本的同时,也能一定程度上避免过度纠正的问题。
-
公开(公告)号:CN114625910B
公开(公告)日:2022-08-19
申请号:CN202210516499.6
申请日:2022-05-13
IPC分类号: G06F16/583 , G06F16/532 , G06F16/51 , G06F16/332 , G06F40/30 , G06N3/04
摘要: 本发明公开了一种基于负感知注意力框架的图像文本跨模态检索方法,与现有的仅关注匹配片段而削弱或消除不匹配片段作用效果的方法相比,同时关注了图像‑文本对中的匹配和不匹配片段,通过高效的迭代优化策略最大限度地挖掘负面的不匹配片段,生成更具区分性和鲁棒性的负面作用。并且,本发明提出的双分支匹配机制,能够显式地利用片段带来的正面作用和负面作用,精确地衡量出片段的相似度与不相似度,用以共同推断出图文之间的整体相似度,因此可以实现更准确的检索效果。
-
公开(公告)号:CN114625910A
公开(公告)日:2022-06-14
申请号:CN202210516499.6
申请日:2022-05-13
IPC分类号: G06F16/583 , G06F16/532 , G06F16/51 , G06F16/332 , G06F40/30 , G06N3/04
摘要: 本发明公开了一种基于负感知注意力框架的图像文本跨模态检索方法,与现有的仅关注匹配片段而削弱或消除不匹配片段作用效果的方法相比,同时关注了图像‑文本对中的匹配和不匹配片段,通过高效的迭代优化策略最大限度地挖掘负面的不匹配片段,生成更具区分性和鲁棒性的负面作用。并且,本发明提出的双分支匹配机制,能够显式地利用片段带来的正面作用和负面作用,精确地衡量出片段的相似度与不相似度,用以共同推断出图文之间的整体相似度,因此可以实现更准确的检索效果。
-
公开(公告)号:CN116611514A
公开(公告)日:2023-08-18
申请号:CN202310883308.4
申请日:2023-07-19
IPC分类号: G06N5/02 , G06F40/30 , G06F40/211 , G06F40/284 , G06F40/289 , G06F16/35 , G06F40/295
摘要: 本发明涉及人工智能技术领域,公开了一种基于数据驱动的价值取向评估体系构建方法,包括:数据获取;属性获取;标签语义知识体系构建:结合n‑gram属性和文章属性,对各个n‑gram词汇及文章语料建立连接,构建标签语义知识体系;标签语义知识体系包括:n‑gram词汇与文章语料的关联性,以及n‑gram词汇间的关联性;本发明基于社交媒体广泛的数据语料驱动,搭建了一套数据语料的价值取向相关属性的分析处理工具,实现可实时更新的价值取向评估体系的构建,为实现社交媒体价值取向的维护提供基础。
-
公开(公告)号:CN116578638A
公开(公告)日:2023-08-11
申请号:CN202310592502.7
申请日:2023-05-23
IPC分类号: G06F16/26 , G06F16/28 , G06F18/214 , G06F18/22 , G06N3/0464 , G06N3/08
摘要: 本发明涉及知识图谱技术领域,公开了一种基于路径邻域聚合和难负样本挖掘的关系推理方法,包括邻域编码、负样本筛选,路径选择和路径‑邻域聚合。在邻域编码中,本发明设计了邻域编码器,自动编码实体一跳内邻域关系,获得实体自身的表示;在负样本筛选中,本发明用单个实体表示,设计了一种获取难负样本的办法;在路径选择中,本发明基于待预测关系两端的实体对表示,选择出与待预测关系关联度最高的路径表示;最终在路径‑邻域聚合中,本发明设计了一种聚合方法以利用路径表示和实体对表示,实现归纳式关系推理。
-
-
-
-
-
-
-
-
-