• 专利标题: 基于图结构的多模态媒体数据聚类方法及装置
  • 申请号: CN202111667110.X
    申请日: 2021-12-31
  • 公开(公告)号: CN114491100A
    公开(公告)日: 2022-05-13
  • 发明人: 高跃张博文
  • 申请人: 清华大学
  • 申请人地址: 北京市海淀区清华园
  • 专利权人: 清华大学
  • 当前专利权人: 清华大学
  • 当前专利权人地址: 北京市海淀区清华园
  • 主分类号: G06F16/45
  • IPC分类号: G06F16/45 G06F16/483
基于图结构的多模态媒体数据聚类方法及装置
摘要:
本申请涉及一种基于图结构的多模态媒体数据聚类方法及装置,其中,方法包括:提取无标签多模态媒体数据,并根据多模态媒体数据的每个文档的词频特征向量和文档特征向量计算文档之间的多模态相似度;根据文档的数量计算相似度的阈值,得到无向图结构;在无向图结构上应用社区发现算法,将所有文档节点划分为多个点的集合,其中,每一个集合中包括主题相同的多个文档,完成多模态多媒体数据的聚类。由此,利用多媒体数据中多粒度多模态的特征,计算文档之间的关联性,利用图结构和社区发现算法将大规模的多媒体文档进行划分,输出若干个包含相同主题文档的文档簇,在聚类过程中通过清除边缘的文档簇,进一步提高了数据聚类和处理冗余信息的能力。
0/0