-
公开(公告)号:CN118710780B
公开(公告)日:2024-12-27
申请号:CN202411186814.9
申请日:2024-08-28
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于语言学关键帧的语音驱动三维人脸运动动画生成方法,包括以下步骤:获取一维语音信号;对一维语音信号进行预处理,获得关键帧时间索引;利用一维语音信号和关键帧时间索引进行关键帧人脸运动生成;利用一维语音信号、关键帧时间索引、关键帧人脸运动生成完整的人脸运动序列;显著提高了面部动画的准确性和自然度,实现了面部表情与语音信号的高度同步,有效解决了现有方法生成人脸运动动画过于平滑的问题,特别是在处理复杂面部表情(如噘嘴或张嘴)时的动态细节缺失问题。不仅能够提高三维面部动画的生成质量,适用于虚拟现实和增强现实等应用,还能够提升人机交互的自然性和用户体验。
-
公开(公告)号:CN118710996B
公开(公告)日:2024-12-06
申请号:CN202411191850.4
申请日:2024-08-28
Applicant: 华南理工大学
IPC: G06V10/764 , G06N3/0455 , G06N3/098 , G06V10/77 , G06V10/82
Abstract: 本发明公开了一种基于扩散驱动数据回放的联邦类持续学习图像分类方法,所述方法包括:初始化阶段,服务器初始化预训练扩散模型和图像分类模型并发送给客户端;类别逆向编码阶段,客户端对新任务类别进行逆向编码,得到类别嵌入向量;图像生成阶段,利用类别嵌入向量生成图像;图像分类模型训练阶段,各个客户端用生成数据和合成数据训练图像分类模型。对于联邦类持续学习图像分类,其关键难点在于灾难性遗忘,即模型在学习新任务时遗忘旧任务的知识,为解决这一难点,通过预训练扩散模型对各个类别数据进行逆向工程,得到类别嵌入向量,在学习新任务时利用类别嵌入向量对历史任务数据进行生成回放,有效缓解灾难性遗忘。
-
公开(公告)号:CN118762103A
公开(公告)日:2024-10-11
申请号:CN202411240512.5
申请日:2024-09-05
Applicant: 华南理工大学
IPC: G06T11/20 , G06V30/18 , G06V30/19 , G06V30/22 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06N3/0475 , G06N3/0895 , G06N3/092
Abstract: 本发明公开了一种基于扩散模型的单样本手写文字临摹方法,包括以下步骤:构建能够临摹任意手写风格的扩散模型生成网络,包括风格特征增强模块,内容编码器,自适应融合模块,条件扩散模型;以手写样本图像和标准字体图像作为风格输入和内容输入,分别经内容编码器和风格编码器提取出风格特征和内容特征,然后将风格和内容特征同时输入到条件扩散模型中生成具有目标风格和内容的手写文字;训练所述的能够临摹任意手写风格扩散模型生成网络;使用训练好的扩散模型生成网络来生成同时满足目标风格和目标内容的手写文字。本发明方法结合高频信息提取和门控机制,能够提取更加准确的用户手写风格,引导条件扩散模型合成更加逼真的风格化手写文字。
-
公开(公告)号:CN117951313A
公开(公告)日:2024-04-30
申请号:CN202410297786.1
申请日:2024-03-15
Applicant: 华南理工大学
IPC: G06F16/36 , G06F40/216 , G06F16/35
Abstract: 本发明公开了基于实体关系统计关联的文档关系抽取方法,所述方法包括:构建关系抽取模型,包括预训练语言模型和关系预测层;使用预训练语言模型编码文档,获得文档特征以及实体特征;对每个实体计算统计关系向量;把每对实体的实体特征和统计关系向量输入关系预测层,获得实体对的关系概率分布;计算关系分类损失函数,优化关系分类损失函数,训练关系抽取模型;使用关系抽取模型进行关系抽取。本发明发现对于文档关系抽取,其天然存在着很强的统计先验知识,本发明创新性地对每个实体与每种关系的统计关联进行计算,并作为先验知识引入深度学习模型中,提升模型性能。
-
公开(公告)号:CN113807336B
公开(公告)日:2023-06-30
申请号:CN202110906651.7
申请日:2021-08-09
Applicant: 华南理工大学 , 人工智能与数字经济广东省实验室(广州)
Abstract: 本发明公开了一种图像文本检测半自动标注方法、系统、计算机设备及介质,所述方法包括:获取文本图像;从文本图像中获取文本中心线;生成N个围绕文本中心线的候选边界框;将N个候选文本区域同时输入宽松识别器和严苛识别器,通过宽松识别器将从N个候选文本区域中识别得到估计的文本内容,通过严苛识别器预测每个候选文本区域的内容识别结果;将N个内容识别结果与估计的文本内容相比,分别计算识别损失,得到N个识别损失;通过确定所有识别损失中最小损失的索引,获得最准确候选边界框的索引,进而得到最终的文本框标注;将文本框标注以识别损失为引导进行优化,最终得到紧致的文本框标注。本发明能够提高文本检测标注效率和标注效果。
-
公开(公告)号:CN114757969A
公开(公告)日:2022-07-15
申请号:CN202210363417.9
申请日:2022-04-08
Applicant: 华南理工大学 , 人工智能与数字经济广东省实验室(广州)
Abstract: 本发明公开了基于全局追踪解码的文字图像书写轨迹恢复方法,包括以下步骤:将文字图像调整为预设尺寸并进行二值化处理;构建卷积循环神经编码网络;构建全局追踪解码网络,所述的全局追踪解码网络的输入为编码特征Z,输出为预测文字书写轨迹序列;联合训练卷积循环神经编码网络和全局追踪解码网络,获得文字图像书写轨迹恢复网络模型;利用训练完成的文字图像书写轨迹恢复网络模型进行书写轨迹恢复。本发明方法在解码的过程中,设置全局追踪解码机制,在每个解码时刻,加入编码特征作为RNN解码器的输入,有助于解码器在整个轨迹序列的预测过程中都能对全局文字特征进行持续追踪,缓解轨迹序列偏移问题,有效提升文字图像书写轨迹的恢复性能。
-
公开(公告)号:CN114529925A
公开(公告)日:2022-05-24
申请号:CN202210425844.5
申请日:2022-04-22
Applicant: 华南理工大学 , 人工智能与数字经济广东省实验室(广州)
IPC: G06V30/412 , G06V10/24 , G06V10/26 , G06V10/28 , G06V10/44 , G06V10/764 , G06K9/62
Abstract: 本发明公开了一种全线表表格结构识别方法,包括:采用实例分割算法对文档图像进行单元格分割,得到每一个单元格对应于文档图像中单元格所在区域的二值化掩码图像;将每一个单元格的二值化掩码图像进行或运算和形态学闭操作,得到表格整体区域图像及表格整体区域图像的二值化掩码图像;采用矫正算法,在获得表格整体区域图像中表格区域的四个顶点后,利用TPS变换以这四个顶点为基准将弯曲表格修正为以这四个顶点为顶点的近似四边形表格区域,并使用透视变换将近似四边形表格区域转换成水平矩形的正表格图像;进行单元格目标检测获得每一个单元格的边界框;利用基于规则化排序算法进行排序以识别表格结构,将表格结构表达成对应的标记语言描述。
-
公开(公告)号:CN111898411B
公开(公告)日:2021-08-31
申请号:CN202010548848.3
申请日:2020-06-16
Abstract: 本申请涉及一种文本图像标注系统、方法、计算机设备和存储介质,通过接收前端网页上发的预标注请求;根据预标注请求携带的待标注文本图像的标识查找得到待标注文本图像;对待标注文本图像进行实例分割得到候选文本框集合;基于最小函数和交集运算,对候选文本框集合中的各个候选文本框进行计算,得到各个候选文本框之间的重叠度;根据重叠度在候选文本框集合中选取得到至少一个目标文本框,生成目标文本框集合;对待标注文本图像进行特征提取,根据提取得到的特征与目标文本框集合,对待标注文本图像进行预标注;将预标注结果发送至前端网页,以使前端网页显示预标注结果,根据修正指令对预标注结果进行修正,得到标注结果;能够提高标注效率。
-
公开(公告)号:CN109886155B
公开(公告)日:2021-08-10
申请号:CN201910089817.3
申请日:2019-01-30
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于深度学习的单株水稻检测定位方法、系统、设备及介质,所述方法包括:获取大田水稻样本图像数据;对大田水稻样本图像数据进行预处理和标注,得到预处理图像数据;建立深度卷积神经网络检测模型;使用预处理图像数据对深度卷积神经网络检测模型进行优化训练;利用训练后的深度卷积神经网络检测模型对大田水稻待测图像的单株水稻进行检测定位。本发明采用计算机视觉中基于深度学习的检测方法,可以大大改善上述现有技术的缺陷,通过设计深度卷积神经网络模型,提取植株高维度空间语义特征,在复杂的环境下依然有很好的定位精度和鲁棒性,能够广泛应用于农业的自动化、智能化生产管理中。
-
公开(公告)号:CN109255351B
公开(公告)日:2020-08-18
申请号:CN201811031633.3
申请日:2018-09-05
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于三维卷积神经网络的边界框回归方法、系统、设备及介质,所述方法包括:构建回归器,对跟踪算法预测出的目标边界框进行回归;根据给定跟踪序列的第一帧信息,生成样本对并训练回归器;在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归;在设定三维卷积神经网络的时序维度输入量为N的情况下,当跟踪到第N帧时,将前N帧的跟踪目标图像作为三维卷积神经网络的输入,再根据第一帧的信息,生成样本对,对回归器进行适应性调优重训练。本发明首次将边界框回归应用在基于三维卷积神经网络的目标跟踪算法领域,使预测的边界框经过回归后更接近真实值,提高了跟踪效果的精确性。
-
-
-
-
-
-
-
-
-