基于音视频记忆网络和多模态信息流对话生成方法及系统

    公开(公告)号:CN116758925A

    公开(公告)日:2023-09-15

    申请号:CN202310686474.5

    申请日:2023-06-09

    摘要: 本发明提供了一种基于音视频记忆网络和多模态信息流对话生成方法及系统,包括:步骤S1:对音频与视频分别进行预处理,提取模态对齐过的音频数据和视频数据的语义表征;步骤S2:利用音视频记忆网络将语言模型提取的文本语义信息与音视频信息融合,得到融合音视频信息的对话上下文信息;步骤S3:对融合音视频信息的对话上下文信息作为流信息进行建模;步骤S4:对于当前待回复的问句,对话模型结合音视频信息以自回归的方式生成每个词,生成语句回复。本发明利用音视频记忆网络的多层注意力机制来实现不同模态信息的高效融合,相较于其他融合方法能够更好地融合多模态信息。

    模块聚类和质心选择的预训练模型结构化剪枝方法及系统

    公开(公告)号:CN118468965A

    公开(公告)日:2024-08-09

    申请号:CN202410617480.X

    申请日:2024-05-17

    摘要: 本发明提供了一种模块聚类和质心选择的预训练模型结构化剪枝方法及系统,包括:使用预训练语言模型和下游任务数据集得到模型每一层的隐表征;根据给出的模型大小约束条件计算出对不同模块的大小限制条件;利用每一层的隐表征计算出不同模块之间的余弦相似度;根据计算得到的余弦相似度矩阵对不同模块进行聚类;使用聚类树和不同模块的大小约束条件确定类别个数;根据每一层的隐表征计算不同模块的平均幅值大小,并保留每一类别簇中幅值最大的模块,剪去类别簇中的其他模块。本发明针对提出的预剪枝框架提出了一种基于模块聚类和质心选择的结构化剪枝方法,该方法能够高效地衡量语言预训练模型不同模块的相似度。