-
公开(公告)号:CN116578552A
公开(公告)日:2023-08-11
申请号:CN202310438677.2
申请日:2023-04-23
申请人: 西南交通大学
IPC分类号: G06F16/215 , G06F18/214 , G06F18/22 , G06F18/2415 , G06F18/243 , G06N3/091
摘要: 本发明公开一种辅助多源重复数据消重的候选数据筛选方法,包括构建多源重复数据集;划分为训练数据集和测试数据集;从训练数据集中取出数据样本,并捕捉数据样本之间的相似度特征;进行预测,获得预测出来的标签;建立匹配点之间的连接图;连接图进行清洗;将已经清洗后的连接图进行图标签的设置,在同一图中的点被视作指向同一实体的相似重复数据,将数据的图预测标签与xgboost模型预测的标签进行比较,选择标签不一致的数据进行重新的人工标注;直到循环次数达到设定的值;对多余数据进行数据删重。该发明能够在实际的应用中,很好的刻画数据中不同长短属性值的相似度,对于多源重复数据删重方面,也能对重复数据有着很好的识别效果。
-
公开(公告)号:CN114462685A
公开(公告)日:2022-05-10
申请号:CN202210032572.2
申请日:2022-01-12
摘要: 本发明提供一种基于时序卷积注意力的多路段列车客流预测方法及装置,方法包括:获取多路段列车客流数据;将多路段列车客流数据输入多路段客流预测模型中,获得多路段客流预测模型输出的多路段列车客流预测数据;其中,多路段客流预测模型通过多路段列车客流样本数据训练获得,多路段客流预测模型包括线性单元和非线性单元,多路段列车客流预测数据是将多路段列车客流数据分别通过线性单元和非线性单元后输出的结果相加得到的。本发明通过同时捕获多路段客流中的线性特征以及空间关系、短期时序和长期时序特征,对铁路客流的不同特征进行深入挖掘,从多个方面深度、完整地表示客流的时间和空间特征,提高客流预测的效果。
-
公开(公告)号:CN113763712A
公开(公告)日:2021-12-07
申请号:CN202111224111.7
申请日:2021-10-19
申请人: 西南交通大学
摘要: 本发明公开了一种基于出行事件知识图谱的区域交通拥堵溯因方法,包括构建出行事件知识图谱和利用出行事件知识图谱进行区域交通拥堵溯因的步骤。本发明的有益效果在于,能够简洁有效地表示出行轨迹数据的时空动态性,刻画出车辆实体、轨迹实体、POI实体、事件实体的相互关系,适用于处理动态变化的出行轨迹。充分考虑了突发事件对出行轨迹的影响,出行事件知识图谱记录了事件的名称、类型、发生时间、发生地点、持续时间等,对于交通拥堵的溯因提供了一种可解释性的分析手段。综合出行轨迹的时空动态性和事件关系,可充分挖掘出行轨迹本身隐含的时空动态和因果知识。
-
公开(公告)号:CN113536799A
公开(公告)日:2021-10-22
申请号:CN202110927320.1
申请日:2021-08-10
申请人: 西南交通大学
IPC分类号: G06F40/295 , G06F40/242 , G06N3/04 , G06N3/08
摘要: 基于融合注意力的医疗命名实体识别建模方法,包括步骤:将医疗文本语句进行中文分词并索引;利用前向LSTM和反向LSTM通过拼接得到Bi‑LSTM模型;通过注意力机制更新输出特征向量;通过条件随机场CRF对输出特征向量进行解码,得到输入医疗文本语句的医疗实体类型的标注。本发明的输入在字符序列的基础上加入了其在词典中匹配到的词语,通过门结构动态控制为模型提供更多指导,从而从医疗语料中选择出最相关的字符和词语。相较于基于字符的方法,多粒度信息得以被该模型显式地运用,以获得更好的识别性能。并且,引入注意力机制,使得模型重点关注有效信息,从而弥补传统Bi‑LSTM‑CRF模型虽考虑了上下文信息,却忽略了不同字符和词语在句子中重要性不同的情况。
-
公开(公告)号:CN112883738A
公开(公告)日:2021-06-01
申请号:CN202110316876.7
申请日:2021-03-23
申请人: 西南交通大学
IPC分类号: G06F40/295 , G06F16/35 , G06F16/36 , G06N3/04
摘要: 本发明公开了一种基于神经网络和自注意力机制的医学实体关系抽取方法,该方法包括:利用向量表示技术将医学文本语句向量化;利用双向长短期记忆网络学习医学文本语句的上下文信息和浅层语义特征;利用多通道自注意力机制学习医学文本语句的深层次全局语义特征;利用卷积神经网络学习医学文本语句的局部短语特征;将全局信息和局部信息进行拼接,用其进行关系判定,得到预测标签。本发明在“recurrent+CNN”网络框架的基础上引入多通道自注意力机制,可以同时捕获语句的上下文信息、局部信息和全局信息,从而对医学文本的语义特征进行深入挖掘,从多个方面深度、完整地表示语句的语义特征,从而提高关系抽取的效果。
-
公开(公告)号:CN108647135B
公开(公告)日:2021-02-12
申请号:CN201810426699.6
申请日:2018-05-07
申请人: 西南交通大学
IPC分类号: G06F11/34
摘要: 本发明属于云计算技术领域,具体的说是涉及一种基于微操作的Hadoop参数自动调优方法。本发明主要是通过将mapreduce任务解耦确定为不同阶段不同类型微操作,然后根据选取的微操作建立单次执行时间与单次处理数据量的模型,根据建立的模型对运行过程进行重构组合得到阶段运行时间和系统参数的关系,最后寻找模型中使任务运行时间最短的参数组合。本发明的方法不随作业类型和集群配置变化而变化,同时查找最优参数耗时短,效率高,可移植性好。
-
公开(公告)号:CN109885603A
公开(公告)日:2019-06-14
申请号:CN201910026388.5
申请日:2019-01-11
申请人: 西南交通大学
IPC分类号: G06F16/248
摘要: 本发明公开了一种平行坐标可视化边绑定方法,包括以下步骤:获取数据集中的样本信息,并对样本全体进行分类;分别计算每个样本类别在各个属性维度下的均值;依据均值设置相邻属性维度之间的虚拟控制轴和平行控制点;将设置好的平行控制点与每个样本数据进行配对;将配对完成的样本数据点与平行控制点进行连接。本发明有效地解决了一般平行坐标可视化边绑定方法中的曲线重叠问题,并且相比于传统的平行坐标可视化,本发明能够明显的降低每个样本类别所占用的视觉空间,达到减少视觉杂乱的目的。
-
公开(公告)号:CN108647135A
公开(公告)日:2018-10-12
申请号:CN201810426699.6
申请日:2018-05-07
申请人: 西南交通大学
IPC分类号: G06F11/34
CPC分类号: G06F11/3447 , G06F11/3476
摘要: 本发明属于云计算技术领域,具体的说是涉及一种基于微操作的Hadoop参数自动调优方法。本发明主要是通过将mapreduce任务解耦确定为不同阶段不同类型微操作,然后根据选取的微操作建立单次执行时间与单次处理数据量的模型,根据建立的模型对运行过程进行重构组合得到阶段运行时间和系统参数的关系,最后寻找模型中使任务运行时间最短的参数组合。本发明的方法不随作业类型和集群配置变化而变化,同时查找最优参数耗时短,效率高,可移植性好。
-
公开(公告)号:CN108304866A
公开(公告)日:2018-07-20
申请号:CN201810058394.4
申请日:2018-01-22
申请人: 西南交通大学
IPC分类号: G06K9/62
摘要: 本发明公开了一种多视图特征判别方法,属于数据挖掘领域。该方法针对分类预测任务,构建视图的典型相关分析优化目标并对优化目标进行求解,从视图组合特征和类别相关性两方面优化目标,得到更具有判别性的属性特征。该方法的实施思路分为两个过程:首先构建优化目标,计算相关参数:类内和类间相关矩阵、视图组合特征的类内和类间散布矩阵、视图的协方差矩阵等;然后求解优化目标,得到新的空间投影矩阵,利用目标投影矩阵将原始多视图特征映射到新的特征空间,得到更具判别性的多视图特征,最后信息融合得到一个视图。本发明可用于疾病诊断、文本分类、人脸识别、语音识别等诸多分类问题的特征判别分析以及降维,能显著提升分类准确率。
-
-
-
-
-
-
-
-