-
公开(公告)号:CN103186600A
公开(公告)日:2013-07-03
申请号:CN201110455219.7
申请日:2011-12-28
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种互联网舆情的专题分析方法,包括:采集互联网舆情文件;采用预设的专题规则匹配互联网舆情文件;对匹配成功的互联网舆情文件生成专题。本发明提供了一种互联网舆情的专题分析装置,包括:采集模块,用于采集互联网舆情文件;匹配模块,用于采用预设的专题规则匹配互联网舆情文件;生成模块,用于对匹配成功的互联网舆情文件生成专题。本发明实现了在海量舆情数据中及时准确地得到专题。
-
公开(公告)号:CN103164438A
公开(公告)日:2013-06-19
申请号:CN201110415749.9
申请日:2011-12-13
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
CPC classification number: H04L41/0253 , G06F17/30864 , G06F17/30867
Abstract: 本发明公开了一种网络评论的采集方法及系统。所述方法包括:获取一网页入口链接地址;判断所述网页入口链接地址对应的网页上是否有N个网络评论,其中,所述N为正整数;在有所述N个网络评论时,判断所述N个网络评论中是否有M个网络评论满足采集的条件,其中,所述M为小于或等于N的正整数;在有所述M个网络评论满足采集的条件时,采集所述M个网络评论。
-
公开(公告)号:CN102571854A
公开(公告)日:2012-07-11
申请号:CN201010609163.1
申请日:2010-12-17
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: H04L29/08
Abstract: 本发明实施例公开了一种网络数据采集方法及装置,涉及网络技术,为提高网络数据的采集效率而发明。所述方法包括:获取各个采集节点的性能效益参数值,其中所述性能效益参数值用于表示所述各个采集节点处理性能的优劣;根据所述性能效益参数值,确定具有最大性能效益参数值的采集节点;为所述具有最大性能效益参数值的采集节点分配任务。本发明实施例能够提高网络数据的采集效率。
-
公开(公告)号:CN102541937A
公开(公告)日:2012-07-04
申请号:CN201010618403.4
申请日:2010-12-22
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
CPC classification number: G06F17/30867 , G06F17/30616 , G06F17/30663 , G06F17/30684 , G06F17/30864 , G06F17/30876 , G06F17/30887
Abstract: 本发明公开了一种网页信息探测方法及系统。本发明预先抽取网页正文的关键词,将从该网页正文中抽取的关键词与该网页URL的对应关系存储到数据库中;探测网页信息时,先获取待探测网页的源文件,然后从数据库中检索出与待探测网页相同URL的关键词,用所述关键词与待探测网页的源文件内容进行匹配,根据匹配程度确定待探测网页信息是否存在。本发明能够提高网页信息探测的准确率。
-
公开(公告)号:CN102339290A
公开(公告)日:2012-02-01
申请号:CN201010236363.7
申请日:2010-07-22
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种网页数据信息的定向采集方法,用以解决现有技术中搜索引擎在进行信息采集时,造成的资源浪费及信息采集不准确的问题。该方法确定列表页当前的页面更新率,根据列表页所属网站的标准更新率,确定的所述列表页当前的页面更新率,及当前的信息采集时间间隔,确定针对所述网站当前信息采集与下一次信息采集的时间间隔,在等待该确定的时间间隔后,进行信息采集。本发明还提供了一种网页数据信息的定向采集装置。如本发明提出的方案,通过确定列表页的页面更新率,动态的确定信息采集的时间间隔,因此可以在网页刷新时准确的获取到信息,并且减少了网络资源的浪费。
-
公开(公告)号:CN102110087A
公开(公告)日:2011-06-29
申请号:CN200910243474.8
申请日:2009-12-24
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司 , 北京北大方正电子有限公司
Abstract: 本发明提供了一种字符数据中实体消解的方法和装置,其中,该方法包括:获取字符数据中的基准语料和待处理语料;从基准语料内获得第一实体集合,将第一实体集合内实体建立共指关系,得到第二实体集合;从待处理语料内获得第三实体集合,并通过第三实体集合和第一实体集合构造出训练集、测试集;采用分类方法对训练集和测试集进行运算;按照运算后的结果识别出第三实体集合与第二实体集合之间的共指关系。本发明克服了字符中由于存在不规范、口语化等特点,向用户呈现词语之间的共指关系错误的问题,进而达到了指向准确、便于用户识别的效果。
-
公开(公告)号:CN107193796B
公开(公告)日:2021-12-24
申请号:CN201610197073.3
申请日:2016-03-31
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F40/30 , G06F16/958
Abstract: 本发明公开了一种舆情事件检测方法及装置,方法包括:获取待检测文本的特征词向量;获取所有特征词对应的向量,并获取敏感义项向量;计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度;获取相似度最大时对应的第一敏感义项,并获取待检测文本中第一敏感义项的数量和待检测文本中特征词的数量,根据第一预设权值和第二预设权值,计算第一敏感义项的数量和特征词的数量的加权和,当加权和大于阈值时确定待检测文本中描述的事件为舆情事件。本发明通过对待检测文本向量化,能够达到有效的语义约束;同时通过计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度,能够准确检测出需要进行关注的舆情事件的问题。
-
公开(公告)号:CN107291686B
公开(公告)日:2020-10-16
申请号:CN201610228512.2
申请日:2016-04-13
Applicant: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC: G06F40/30
Abstract: 本发明提供了一种情感标识的辨识方法和情感标识的辨识系统,其中,情感标识的辨识方法包括:根据情感标识的使用频率确定种子词和种子词对应的文本集合;在对应的文本集合中确定候选词语;根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识。通过本发明的技术方案,针对不同文本语境对情感标识进行识别,适用于多种互联网社交平台。
-
公开(公告)号:CN107203764B
公开(公告)日:2020-08-07
申请号:CN201610158219.3
申请日:2016-03-18
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
Abstract: 本发明提供一种长微博图片识别方法和装置,该方法包括:获取待识别微博图片;将待识别微博图像转换为灰度图片;对灰度图片进行图像形态学处理,其中,图像形态学处理包括二值化处理、腐蚀和膨胀处理;对所述图像形态学处理后的图片进行文字行识别;当识别出的文字行数大于预设行数阈值时,确定待识别微博图片为长微博图片。基于对待识别微博图片的图像处理,以及有效文字行的识别处理,能够准确而高效地识别出待识别微博图片是否为长微博图片。进而使得基于对长微博图片的识别结果而进行的数据分析更加具有针对性,信息处理冗余度更低,数据分析处理效率更高。
-
公开(公告)号:CN106033310B
公开(公告)日:2020-03-06
申请号:CN201510105696.9
申请日:2015-03-11
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F3/0488 , G06F21/31
Abstract: 本发明提供了一种应用解锁方法及装置,其中方法包括:在用户终端当前界面上显示应用解锁界面;获取用户在所述应用解锁界面中输入的触点信息;判断所述触点信息与预设的解锁信息是否一致,所述解锁信息在所述终端上显示的应用解锁界面在第一预设时间段内无重复;若所述触点信息与所述解锁信息相一致,所述用户终端的触摸屏解锁。通过本发明提供的应用解锁方法及装置,能够有效提高智能手机的安全性。
-
-
-
-
-
-
-
-
-