专利检索 ap:("上海交通大学") AND inv:"刘泓呈" 第 1 页

1.

发明公开
基于音视频记忆网络和多模态信息流对话生成方法及系统审中-公开

公开(公告)号：CN116758925A

公开(公告)日：2023-09-15

申请号：CN202310686474.5

申请日：2023-06-09

申请人： 上海交通大学

发明人： 王钰 , 王延峰 , 陈哲 , 刘泓呈

IPC分类号： G10L17/22 , G10L17/02 , G10L17/04 , G10L17/10 , G10L17/18 , G10L13/08 , G10L21/055 , G06F18/25 , G06N3/0442 , G06N3/08

摘要： 本发明提供了一种基于音视频记忆网络和多模态信息流对话生成方法及系统，包括：步骤S1：对音频与视频分别进行预处理，提取模态对齐过的音频数据和视频数据的语义表征；步骤S2：利用音视频记忆网络将语言模型提取的文本语义信息与音视频信息融合，得到融合音视频信息的对话上下文信息；步骤S3：对融合音视频信息的对话上下文信息作为流信息进行建模；步骤S4：对于当前待回复的问句，对话模型结合音视频信息以自回归的方式生成每个词，生成语句回复。本发明利用音视频记忆网络的多层注意力机制来实现不同模态信息的高效融合，相较于其他融合方法能够更好地融合多模态信息。

2.

发明公开
模块聚类和质心选择的预训练模型结构化剪枝方法及系统审中-实审

公开(公告)号：CN118468965A

公开(公告)日：2024-08-09

申请号：CN202410617480.X

申请日：2024-05-17

申请人： 上海交通大学 , 上海人工智能创新中心

发明人： 王钰 , 王苹洁 , 刘泓呈 , 王延峰

IPC分类号： G06N3/082 , G06N3/0464 , G06F18/23 , G06N3/0499

摘要： 本发明提供了一种模块聚类和质心选择的预训练模型结构化剪枝方法及系统，包括：使用预训练语言模型和下游任务数据集得到模型每一层的隐表征；根据给出的模型大小约束条件计算出对不同模块的大小限制条件；利用每一层的隐表征计算出不同模块之间的余弦相似度；根据计算得到的余弦相似度矩阵对不同模块进行聚类；使用聚类树和不同模块的大小约束条件确定类别个数；根据每一层的隐表征计算不同模块的平均幅值大小，并保留每一类别簇中幅值最大的模块，剪去类别簇中的其他模块。本发明针对提出的预剪枝框架提出了一种基于模块聚类和质心选择的结构化剪枝方法，该方法能够高效地衡量语言预训练模型不同模块的相似度。

3.

发明公开
基于多粒度时空场景图与反事实推理的多模态对话生成方法和系统审中-实审

公开(公告)号：CN118503371A

公开(公告)日：2024-08-16

申请号：CN202410596680.1

申请日：2024-05-14

申请人： 上海交通大学 , 上海人工智能创新中心

发明人： 王钰 , 刘泓呈 , 陈哲 , 李慧 , 王苹洁 , 王延峰

IPC分类号： G06F16/332 , G06N5/04 , G06F16/583 , G06N3/0499 , G06N3/048 , G06N3/08 , G06F18/22 , G06F18/25

摘要： 本发明提供了一种基于多粒度时空场景图与反事实推理的多模态对话生成方法和系统，包括：对音视频进行预处理，提取视觉和听觉的多粒度语义表征，提取视频的多粒度时空场景图信息；通过音视频得到基于多模态信息的答案表征，通过对话历史得到基于文本信息的答案表征，通过多指针网络将两个答案表征进行结合，得到最终答案表征；训练初步模型，通过反事实推理对初步模型进行去偏；对当前待回复的问句，通过自回归模式生成答案。本发明利用多粒度场景图的显式表示实现视频信息的准确性、利用多指针网络的多向选择实现文本信息和视频信息的有效结合、利用反事实推理的因果去偏实现减少数据分布不平衡的不平衡训练，可以有效地消除多模态对话中的幻觉。