-
公开(公告)号:CN118312608B
公开(公告)日:2024-08-27
申请号:CN202410741467.5
申请日:2024-06-11
Applicant: 山东齐鲁壹点传媒有限公司
IPC: G06F16/335 , G06F16/383 , G06F40/30 , G06F18/214 , G06Q30/0251
Abstract: 一种基于ANN和LLM的广告语义检索模型的建立方法,属于文本检索技术领域,包括以下步骤:S1、通过LLM提供大量关键词样本,并清洗不同的渠道数据,然后对数据进行处理,获得包含正样本、负样本的训练数据集;S2、获取最近一段时间的数据,并对数据进行过滤、筛选处理;S3、对具有代表性但低频的查询进行筛选,用作对训练数据集的补充。本发明提供的基于ANN和LLM的广告语义检索模型的建立方法,利用ANN算法,以及加入LLM模型产出的关键词样本,提升了生成的训练数据样本的质量和数量,从而可以建立准确性和检索效率更高的语义检索模型。
-
公开(公告)号:CN117312500B
公开(公告)日:2024-02-27
申请号:CN202311624188.2
申请日:2023-11-30
Applicant: 山东齐鲁壹点传媒有限公司
Abstract: 一种基于ANN和BERT的语义检索模型建立方法,属于文本检索领域,包括以下步骤:S1、数据准备:准备若干个文本的训练数据和测试数据;S2、数据预处理:对所述训练数据进行预处理,包括文本清洗、文本数据预处理,以便于ANN和BERT模型的输入;S3、BERT预训练:通过BERT模型,具体采用RoBERTa模型,从文本中捕捉到丰富的语义信息,然后采用TinyBERT进行结构蒸馏,通过多次调整参数来进行训练,能够大大提高预训练知识的保留,减少流失。本发明提供了一种基于ANN和BERT的语义检索模型建立方法,基于ANN和BERT的特性,将二者相结合,建立一种准确率和效率更高的语义检索模型。(56)对比文件范国栋等.面向APP评论响应的语义检索和生成框架.计算机学报.2022,第45卷(第12期),2529-2541.范国栋等.计算机学报.2022,第45卷(第12期),2529-2541.
-
公开(公告)号:CN118981453B
公开(公告)日:2025-03-04
申请号:CN202411455575.2
申请日:2024-10-18
Applicant: 山东齐鲁壹点传媒有限公司
IPC: G06F16/16 , G06F16/178
Abstract: 一种多模态多源异构数据融合方法,属于数据处理技术领域,包括以下步骤:S1、配置原始数据库到目标数据库的数据管道,通过数据管道将源数据从原始数据库全量抽取至目标数据库,获得贴源数据集;S2、对贴源数据集进行结构化、清洗操作,获得第一数据集;S3、对第一数据集进行转储,获得第二数据集;S4、对第二数据集进行数据融合处理,包括数据映射与转换、数据标准化,获得第三数据集;S5、对第三数据集,针对不同类型的数据,进行特征提取与处理,获得最终数据集;S6、对最终数据集进行持久化存储。本发明提供的多模态多源异构数据融合方法,能够有效解决多模态多源异构数据融合中的数据质量问题,提高融合结果的一致性和可靠性。
-
公开(公告)号:CN117312500A
公开(公告)日:2023-12-29
申请号:CN202311624188.2
申请日:2023-11-30
Applicant: 山东齐鲁壹点传媒有限公司
Abstract: 一种基于ANN和BERT的语义检索模型建立方法,属于文本检索领域,包括以下步骤:S1、数据准备:准备若干个文本的训练数据和测试数据;S2、数据预处理:对所述训练数据进行预处理,包括文本清洗、文本数据预处理,以便于ANN和BERT模型的输入;S3、BERT预训练:通过BERT模型,具体采用RoBERTa模型,从文本中捕捉到丰富的语义信息,然后采用TinyBERT进行结构蒸馏,通过多次调整参数来进行训练,能够大大提高预训练知识的保留,减少流失。本发明提供了一种基于ANN和BERT的语义检索模型建立方法,基于ANN和BERT的特性,将二者相结合,建立一种准确率和效率更高的语义检索模型。
-
公开(公告)号:CN118981453A
公开(公告)日:2024-11-19
申请号:CN202411455575.2
申请日:2024-10-18
Applicant: 山东齐鲁壹点传媒有限公司
IPC: G06F16/16 , G06F16/178
Abstract: 一种多模态多源异构数据融合方法,属于数据处理技术领域,包括以下步骤:S1、配置原始数据库到目标数据库的数据管道,通过数据管道将源数据从原始数据库全量抽取至目标数据库,获得贴源数据集;S2、对贴源数据集进行结构化、清洗操作,获得第一数据集;S3、对第一数据集进行转储,获得第二数据集;S4、对第二数据集进行数据融合处理,包括数据映射与转换、数据标准化,获得第三数据集;S5、对第三数据集,针对不同类型的数据,进行特征提取与处理,获得最终数据集;S6、对最终数据集进行持久化存储。本发明提供的多模态多源异构数据融合方法,能够有效解决多模态多源异构数据融合中的数据质量问题,提高融合结果的一致性和可靠性。
-
公开(公告)号:CN117010368B
公开(公告)日:2024-07-09
申请号:CN202311276973.3
申请日:2023-10-07
Applicant: 山东齐鲁壹点传媒有限公司
IPC: G06F40/232 , G06F40/126
Abstract: 本发明提供一种基于字形相似的中文纠错数据增强方法,包括:建立汉字数据集N={w1,...,wi,...,wj,...,wn},第i个汉字wi的标准化笔画笔顺编码为#imgabs0#;根据标准化笔画笔顺编码#imgabs1#计算数据集N中任意两个汉字wi、wj的字形相似度Sj,i,形成n×n的字形相似度矩阵S;利用概率分布模型计算目标词语w中第i个汉字wi的异形错误写法#imgabs2#的标准化笔画笔顺编码为#imgabs3#的概率;筛选高于概率阈值的汉字,在其中选择一个与汉字wi字形相似度Si,j最高的汉字wj作为#imgabs4#,进而得到整个目标词语w的异形错误写法w*。本发明通过对现有的数据样本进行扩展相较于现有的数据增强方法,提高数据集的质量和数量,能够更好地提高纠错模型在字形纠错方面的能力。
-
公开(公告)号:CN119417695A
公开(公告)日:2025-02-11
申请号:CN202510031233.6
申请日:2025-01-09
Applicant: 山东齐鲁壹点传媒有限公司
IPC: G06T3/04 , G06T3/4046 , G06N3/0475 , G06N3/045 , G06N3/094 , G06N3/084
Abstract: 一种基于生成对抗网络GAN的发型移植方法,属于图像处理和计算机视觉领域,包括以下步骤:S1、对生成对抗网络模型进行训练;S2、使用图像分割技术生成源图像和目标图像相应区域的掩膜;S3、将源图像进行缩放、移动,使源图像的发型区域与目标图像的发型区域对齐;S4、调整源图像的颜色分布,使其接近目标图像的颜色分布;S5、将源图像、目标图像以及相关掩膜输入到模型,使其将目标图像的发型区域与源图像的头部区域融合;S6、对融合后的图像的细节进行调整。本发明提供的基于生成对抗网络GAN的发型移植方法,能使发型对齐目标图像且使发型颜色相匹配,解决了发型移植后的效果不够自然的问题,提高了发型移植的效果。
-
公开(公告)号:CN118312608A
公开(公告)日:2024-07-09
申请号:CN202410741467.5
申请日:2024-06-11
Applicant: 山东齐鲁壹点传媒有限公司
IPC: G06F16/335 , G06F16/383 , G06F40/30 , G06F18/214 , G06Q30/0251
Abstract: 一种基于ANN和LLM的广告语义检索模型的建立方法,属于文本检索技术领域,包括以下步骤:S1、通过LLM提供大量关键词样本,并清洗不同的渠道数据,然后对数据进行处理,获得包含正样本、负样本的训练数据集;S2、获取最近一段时间的数据,并对数据进行过滤、筛选处理;S3、对具有代表性但低频的查询进行筛选,用作对训练数据集的补充。本发明提供的基于ANN和LLM的广告语义检索模型的建立方法,利用ANN算法,以及加入LLM模型产出的关键词样本,提升了生成的训练数据样本的质量和数量,从而可以建立准确性和检索效率更高的语义检索模型。
-
公开(公告)号:CN117010368A
公开(公告)日:2023-11-07
申请号:CN202311276973.3
申请日:2023-10-07
Applicant: 山东齐鲁壹点传媒有限公司
IPC: G06F40/232 , G06F40/126
Abstract: 本发明提供一种基于字形相似的中文纠错数据增强方法,包括:建立汉字数据集N={w1,...,wi,...,wj,...,wn},第i个汉字wi的标准化笔画笔顺编码为#imgabs0#;根据标准化笔画笔顺编码#imgabs1#计算数据集N中任意两个汉字wi、wj的字形相似度Sj,i,形成n×n的字形相似度矩阵S;利用概率分布模型计算目标词语w中第i个汉字wi的异形错误写法#imgabs2#的标准化笔画笔顺编码为#imgabs3#的概率;筛选高于概率阈值的汉字,在其中选择一个与汉字wi字形相似度Si,j最高的汉字wj作为#imgabs4#,进而得到整个目标词语w的异形错误写法w*。本发明通过对现有的数据样本进行扩展相较于现有的数据增强方法,提高数据集的质量和数量,能够更好地提高纠错模型在字形纠错方面的能力。
-
-
-
-
-
-
-
-