-
公开(公告)号:CN102571484B
公开(公告)日:2014-08-27
申请号:CN201110418586.X
申请日:2011-12-14
Applicant: 上海交通大学
Abstract: 本发明公开了一种检测网络水军以及找到网络水军的方法,首先建立蜜罐帐号;通过帐号管理模块对所有蜜罐帐号进行统一筹划,确定蜜罐帐号的发帖和关注策略;从收集的帐号中检测机器人帐号;帐号特征模块对帐号特征向量进行描述,这个向量包括多维;帐号检测模块对收集的帐号,根据帐号特征向量符合机器人帐号特性的多少来检测网络水军;利用检测出来的机器人帐号找到更多的机器人帐号和水军。本发明能够从社交网络中找到更多的机器人帐号或者水军帐号,确定水军军团分布。
-
公开(公告)号:CN103116605A
公开(公告)日:2013-05-22
申请号:CN201310017814.1
申请日:2013-01-17
Applicant: 上海交通大学
Abstract: 本发明公开一种基于监测子网的微博热点事件实时检测方法及系统。该方法包括:1)微博监测子网构建,基于用户活跃度、影响力和响应时间构建含有少量关键用户的微博监测子网;2)微博数据实时收集,每隔一定时间周期实时收集微博监测子网所有用户发布的新微博;3)对收集的新微博进行分词和话题合并;4)构建、查询和更新话题列表;5)基于一定时间窗口,根据话题列表内的参与某话题的人数变化进行热点事件判决。本发明利用少量关键用户在热点事件传播中的重要作用,构建微博监测子网,不仅极大地降低了需要处理的微博数据量,降低系统成本,而且可以去除大量噪声微博,提高话题合并的准确率,可以利用单台服务器实现实时快速热点事件检测。
-
公开(公告)号:CN103093228A
公开(公告)日:2013-05-08
申请号:CN201310017804.8
申请日:2013-01-17
Applicant: 上海交通大学
IPC: G06K9/46
Abstract: 本发明公开一种在自然场景图像中基于连通域的中文检测方法,该方法首先获取自然场景图像,将自然场景图像进行笔划宽度变换预处理;笔划宽度变换的输出是一个图像,该图像的每一个像素值代表原始图像相应位置的像素的最大可能笔划宽度,在这一步中进行图像像素的连通域标定;在获得连通分量之后,提取连通分量的各种特征,这些特征组合能很好的表达连通分量;从中文结构出发,首先执行字内合并,接着执行字间合并,字内合并方法检测单个的汉字,字间合并方法检测文本行,并用矩形框对文本区域加以标定。本发明方法以中文的复杂结构为出发点,在中文检测方面具有更好的针对性,因此具有更高的主动性和精确性。
-
公开(公告)号:CN103092956A
公开(公告)日:2013-05-08
申请号:CN201310018004.8
申请日:2013-01-17
Applicant: 上海交通大学
IPC: G06F17/30
Abstract: 本发明公开一种社交网络平台上话题关键词自适应扩充的方法及系统。本发明通过分析社交网络信息内容中词之间的相关性,提取隐含和相关话题的关键词建立关键词扩充词汇库。该方法通过标注少量的关键词建立种子关键词库,增量自反馈收集样本信息建立语料库,通过样本信息获取词频,利用词频和多层过滤算法得到与种子关键词相关性高的相关词语,最后选择合适的词汇加入到关键词扩充库中。本发明区别于传统的网页类关键词扩充机制,这种方法是建立在社交网络信息内容的特点上,对关键词的选择具有更高的灵活性和自适应性。
-
公开(公告)号:CN101877133B
公开(公告)日:2012-05-23
申请号:CN200910311674.2
申请日:2009-12-17
Applicant: 上海交通大学
IPC: G06T7/20
Abstract: 一种图像处理技术领域的二视图像场景的运动分割方法,包括步骤为:进行局部特征提取和特征抽象描述;对提取的局部特征进行初步匹配,形成特征点对匹配集合;为每一特征点对生成一个初始运动模型,得到初始运动模型集合;将每一个初始运动模型映射成一个高维概率向量;为每个高维概率向量指定权重;通过指导抽样和分治处理,得到若干主要运动,使概率向量集合中剩余的概率向量都小于概率阈值;进行特征点对匹配附属指派,并剔除异常。本发明不需要任何关于运动模型数量的先验知识;可以在无需大量特征点的情况下,处理大数量的运动模型;能够较好地处理噪声数据;解决了均值平移的局限性,扩大了应用面;在时间消耗方面取得了一定的改善。
-
公开(公告)号:CN101819680A
公开(公告)日:2010-09-01
申请号:CN201010170965.7
申请日:2010-05-12
Applicant: 上海交通大学
IPC: G06T7/00
Abstract: 一种图像处理技术领域的图像匹配点对的检测方法,包括以下步骤:建立直角坐标系,得到图像中每个像素点的位置信息;对要匹配的查询图像和目标图像进行局部特征检测,分别得到查询图像和目标图像的特征点;对特征点进行初步匹配,得到查询图像和目标图像的匹配特征点对;得到满足弱几何约束关系的匹配特征点对;对满足弱几何约束关系的匹配特征点对进行强几何约束处理;得到每个目标图像与查询图像正确的匹配特征点对的数目,其中与查询图像正确的匹配特征点对的数目最多的目标图像就是查询图像的匹配图像。本发明对异常值的鲁棒性更好;能够为全局几何约束找到更适合的区域,运算简单,空间和时间复杂度低,且准确率高,时间成本低。
-
公开(公告)号:CN111860257A
公开(公告)日:2020-10-30
申请号:CN202010663170.3
申请日:2020-07-10
Applicant: 上海交通大学
Abstract: 本发明提供了一种融合多种文本特征及几何信息的表格识别方法,包括:数据处理步骤:获取表格区域的图片,分别对获取的图片进行OCR识别与直线识别,获得关键特征信息;图卷积神经网络训练步骤:根据获得的关键特征信息,进行图卷积神经网络训练,构建表格结构识别模型;表格识别步骤:根据构建的表格结构识别模型,对图片格式的表格进行结构识别。本发明提出了一种融合多种文本特征及几何信息的表格识别方法,从采用数据的多样性方面和对数据进行特征提取的方法等方面进行改进,有效提升了表格识别的准确率,获得了更加准确的表格结构重建结果,相对现有基于传统规则的表格识别机制及基于图片的传统深度学习方法有了很大的提升效果。
-
公开(公告)号:CN111767732A
公开(公告)日:2020-10-13
申请号:CN202010519571.1
申请日:2020-06-09
Applicant: 上海交通大学
IPC: G06F40/295 , G06F40/279 , G06K9/00
Abstract: 本发明提供了一种基于图注意力模型的文档内容理解方法及系统,包括:文档建图模块:对文档中出现的文本单词按照关联性建立边,从而生成对应文档内容的图网络,建立文档的二维空间信息;文档文字特征提取模块:使用自然语言处理领域的模型提取得到文档中的文字的向量表示,记为文字特征信息;文档图片特征提取模块:使用计算机视觉领域的模型提取得到文档中文字的图像信息表示,记为图片特征信息;图注意力模型:对文档的文字特征和图片特征进行特征融合,并且根据建立的文档的二维空间信息对相邻的节点之间的信息进行交换和传递。本发明利用图神经网路对得到的图结构信息进行学习训练,从而可以显性并有效的利用文档的二维空间信息。
-
公开(公告)号:CN103116605B
公开(公告)日:2016-02-10
申请号:CN201310017814.1
申请日:2013-01-17
Applicant: 上海交通大学
Abstract: 本发明公开一种基于监测子网的微博热点事件实时检测方法及系统。该方法包括:1)微博监测子网构建,基于用户活跃度、影响力和响应时间构建含有少量关键用户的微博监测子网;2)微博数据实时收集,每隔一定时间周期实时收集微博监测子网所有用户发布的新微博;3)对收集的新微博进行分词和话题合并;4)构建、查询和更新话题列表;5)基于一定时间窗口,根据话题列表内的参与某话题的人数变化进行热点事件判决。本发明利用少量关键用户在热点事件传播中的重要作用,构建微博监测子网,不仅极大地降低了需要处理的微博数据量,降低系统成本,而且可以去除大量噪声微博,提高话题合并的准确率,可以利用单台服务器实现实时快速热点事件检测。
-
公开(公告)号:CN102571486B
公开(公告)日:2014-08-27
申请号:CN201110419267.0
申请日:2011-12-14
Applicant: 上海交通大学
Abstract: 本发明公开了一种基于BoW模型和统计特征的流量识别方法,该方法采用了BoW模型,配合提出的特征提取方法,训练采集到的网络流量特征,从而获得每一个网络类别所对应的特征向量。对于新来的网络流量,同样能够通过提取其流量特征,利用BoW建模得到其相应的特征向量,然后依次与先前建立好的每一个网络类别的特征向量进行比较,取匹配度最高的特征向量所对应的类别作为新来的网络流量的分类标签。本发明使用的BoW方法是结合了非监督的k-means聚类方法以及有监督的K-近邻方法,因而更适合于进行多分类。由于Bow模型对于空间位置不敏感,因而在提取特征时不需要按照特征的时序进行排列,方便进行处理。
-
-
-
-
-
-
-
-
-