-
公开(公告)号:CN113609267B
公开(公告)日:2023-11-07
申请号:CN202110826586.7
申请日:2021-07-21
Applicant: 上海交通大学
IPC: G06F16/332 , G06F16/33 , G06F16/35 , G06F40/154 , G06F40/211 , G06F40/253 , G06F40/279 , G06F40/30 , G06N3/042 , G06N3/0464 , G06N3/08
Abstract: 本发明提供了一种基于GCNDT‑MacBERT神经网络框架的话语关系识别方法及系统,包括如下步骤:步骤S1:得到文本的词序列和句法依存树;步骤S2:对文本进行分字得到文本的字序列,得到包含上下文信息的字向量序列;步骤S3:根据词序列对字向量序列进行融合,获得词向量序列;步骤S4将句法依存树转化为图结构,得到更多信息的词向量序列;步骤S5:利用卷积神经网络对词向量序列进行向量特征融合并映射为固定长度的向量;步骤S6:将词向量序列输入多层感知机得出分类结果。本发明充分利用了文本内的上下文信息和语法关系,使用预训练模型和图卷积网络极大的促进模型学习文本的内在语义。
-
公开(公告)号:CN111026895B
公开(公告)日:2023-04-28
申请号:CN201911212122.6
申请日:2019-12-02
Applicant: 上海交通大学 , 腾讯科技(深圳)有限公司
IPC: G06F16/54
Abstract: 本申请实施例提供一种数据可视化处理方法、装置及存储介质,所述方法包括:对初始网络中各层位图的节点进行重叠去除,得到待处理网络;分别对所述待处理网络中的每层位图进行切片,得到各层位图的至少两个切片,所述至少两个切片均分布在预设窗口内,所述切片包括至少两个节点;在各切片上设置节点信息以及节点间的关联信息,得到多层切片;将所述多层切片保存为至少两个图片,对所述至少两个图片进行分层加载,以展示各图片对应的图形界面。本方案能够提高网络的绘制效率和网络的缩放效率。
-
公开(公告)号:CN113111869B
公开(公告)日:2022-12-09
申请号:CN202110368879.5
申请日:2021-04-06
Applicant: 上海交通大学
IPC: G06V30/14 , G06V20/62 , G06V30/148 , G06V30/19
Abstract: 本发明提供了一种提取文字图片及其描述的方法和系统,包括:从文件中抽取图片及其相关描述;判断图片中是否包含子图,若不包含子图则返回图片及其描述并结束;若包含子图则基于YOLO4模型进行目标检测,对子图进行识别切割;基于YOLO4目标检测模型检测子图的图片序号;基于CRNN算法,识别检测到的图片序号;根据图片序号信息对文本描述进行拆分及重新组合;将切割好的图片与其对应的文本描述匹配并返回。本发明可抽取文件中的图片及其描述,若图片中包含子图,则将子图进行切割并与其对应描述对齐,实现了将文件中的图片数据进行整理的目的。
-
公开(公告)号:CN113806514A
公开(公告)日:2021-12-17
申请号:CN202111101997.6
申请日:2021-09-18
Applicant: 上海交通大学
IPC: G06F16/335 , G06F40/117 , G06F40/126 , G06F40/242 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种基于Transformer模型的实体关系抽取方法和系统,包括:对非结构化文本进行数据处理,得到实体以及对应关系;根据关系类型,将关系抽取转换成填空的形式;基于Transformer结构,构建联合抽取模型,在编码器进行实体抽取,在非自回归解码器进行关系抽取;在解码器输入关系模板,基于前馈神经网络的复制机制,输出具有对应关系的实体对;通过两阶段排序策略和负采样机制训练模型,并对联合抽取模型效果的进行测试,并依据测试结果调整联合抽取模型。通过本发明可以实现在非结构化文本中进行特定关系的抽取,并识别出对应的实体,从而利用文本中有价值的信息。
-
公开(公告)号:CN112613318A
公开(公告)日:2021-04-06
申请号:CN202011640532.3
申请日:2020-12-31
Applicant: 上海交通大学
IPC: G06F40/295 , G06F40/232 , G06N3/04 , G06N3/08 , G06F16/31
Abstract: 本发明提供了一种实体名称归一化方法,其特征在于,包括:准备待归一化的名字记录以及相对应的标注名称记录用于训练;利用自然语言处理深度学习模型对标注名称记录组成的语料库进行字符级别的语言模型预训练;将标注名称记录按照设定的规则划分为训练集和测试集;利用训练集对预训练完成的自然语言处理深度学习模型进行微调训练;利用测试集验证预训练完成的自然语言处理深度学习模型的准确度及时间性能;将利用训练集、测试集进行微调训练、验证完成的自然语言处理深度学习模型对待归一化的实体名称进行归一化处理。本发明通过预训练字符级别语言模型来提取任意名称的特征向量,从而通过训练不同名称之间的距离度量来完成名称归一化任务。
-
公开(公告)号:CN110853120A
公开(公告)日:2020-02-28
申请号:CN201910954321.8
申请日:2019-10-09
Applicant: 上海交通大学
IPC: G06T11/60
Abstract: 本发明提供了一种基于分割绘图法的网络布局方法、系统及介质,包括:图分割步骤:根据原始数据使用启发式算法对全图进行分割得到多个子图;块间布局步骤:根据分割结果,基于图布局的力引导模型生成子图的块间布局;子图布局步骤:使用力引导模型对子图分别布局,得到最优的子图布局;拼接步骤:根据子图的块间布局对子图进行拼接,得到初期成图;调整步骤:根据力引导模型对初期成图的布局进行调整,得到最优的全图布局。本发明基于分割绘图法对超大规模网络进行布局,大幅提高了网络布局算法可处理的数据体量,突破了网络可视化算法百万量级的壁垒。
-
公开(公告)号:CN105808729B
公开(公告)日:2019-08-23
申请号:CN201610131343.0
申请日:2016-03-08
Applicant: 上海交通大学
IPC: G06F16/332 , G06F16/36
Abstract: 本发明提供了一种基于论文间引用关系的学术大数据分析方法,包括步骤1:对本地的论文数据集进行相应的分析和处理后在数据库中构建论文引用网络;步骤2:根据论文引用网络中的引用关系构建分析算法,通过该分析算法获得所述论文引用网络中节点的重要性及相互间的关系,并获得论文相对于中心论文的重要度;步骤3:将论文一对一的引用关系转化为引用方向的映射集和被引用方向的映射集,在所述论文引用网络中通过提取算法获得指定论文间的发展路径,并按照步骤2中获得的论文重要度来计算路径的重要度。本发明中的方法能够便捷地分析出数据库中论文的引用关系,并得到论文间的发展路径,提高了论文检索的精度。
-
公开(公告)号:CN106372147A
公开(公告)日:2017-02-01
申请号:CN201610757401.0
申请日:2016-08-29
Applicant: 上海交通大学
IPC: G06F17/30
Abstract: 本发明提供了一种基于文本网络的异构主题网络构建和可视化方法,包括:步骤1:基于原始数据集构建文本网络;步骤2:针对文本网路,构建基于主题模型的生成模型;步骤3:利用变分期望最大化算法构建生成模型的推断过程;步骤4:根据模型的推断过程,对文本网络进行训练,提取出词主题、文章主题以及主题之间的关系;步骤5:利用可视化工具展示异构主题网络。本发明构建了全新的异构主题网络,从而使得用户可以快速地建立对文本网络的认识。
-
公开(公告)号:CN105718528A
公开(公告)日:2016-06-29
申请号:CN201610029065.8
申请日:2016-01-15
Applicant: 上海交通大学
IPC: G06F17/30
CPC classification number: G06F16/358 , G06F16/3325
Abstract: 本发明提供了一种基于论文间引用关系的学术地图展示方法,包括如下步骤:步骤1:利用聚类算法及分布式处理法将事先获取的论文引用关系数据进行聚类,并划分为多个社区;步骤2:分析多个社区的属性和含义,将相关的引用关系数据存入数据库中;步骤3:读取数据库中的引用关系数据并构建论文引用网络,利用可视化工具动态展现论文间的关系,找到目标论文;步骤4:在多个视角上展示论文间的引用关系,形成学术地图。本发明通过聚类算法分布式处理,对事先获取的论文数据进行聚类划分多个社区,并以动态可视化方式展现论文间关系,有效提高用户检索论文的效率。
-
公开(公告)号:CN119646331A
公开(公告)日:2025-03-18
申请号:CN202411693666.X
申请日:2024-11-25
Applicant: 上海交通大学
IPC: G06F16/957 , G06F16/958 , G06F40/14 , G06F40/205 , G06F16/35 , G06F18/25 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明提供了一种基于多维度特征的通用二阶段网页信息提取方法和系统,第一阶段通过分析目标网页的文本内容、HTML结构内容获得文本特征、XPath特征、位置特征和节点标签特征,通过双向长短期记忆模型学习多维度的节点表征,实现节点级信息提取与网页摘要提取;第二阶段基于Transformer架构的语言模型对网页摘要进行向量表征,通过文本范围预测实现节点内部的实体信息识别。本发明通过设计二阶段网页信息提取流程,解决了以往技术只能针对单一类别信息提取的问题,实现了节点级、实体级信息同步提取的技术效果。
-
-
-
-
-
-
-
-
-