-
公开(公告)号:CN106294312A
公开(公告)日:2017-01-04
申请号:CN201510369322.8
申请日:2015-06-29
Applicant: 北京大学 , 北大方正集团有限公司北京北大方正电子有限公司
IPC: G06F17/27
Abstract: 本发明提出了一种信息处理方法和一种信息处理系统,所述方法包括:获取当前文档中的文档语句和所述文档语句中的单词,并根据预设词典确定所述单词的单词极性值;根据所述文档语句中的每个所述单词、所述单词的所述单词极性值以及语句极性值计算模型计算所述文档语句的语句极性值;根据所述当前文档中的每个所述文档语句的所述语句极性值和特征词集合确定所述当前文档的情感倾向性。通过本发明的技术方案,可以准确地分析出当前文档针对当前话题的情感倾向性。
-
公开(公告)号:CN106294396A
公开(公告)日:2017-01-04
申请号:CN201510260688.1
申请日:2015-05-20
Applicant: 北京大学 , 北大方正集团有限公司北京北大方正电子有限公司
IPC: G06F17/30
CPC classification number: G06F16/951
Abstract: 本发明提出了一种关键词扩展方法和一种关键词扩展系统,其中,方法包括:通过关键词获取模块在当前数据中获取关键词;通过初始扩展模块对关键词进行初始扩展,以确定关键词的初始扩展词;通过候选词提取模块使用词权重计算公式计算样本数据库中的多个目标样本词的词权重,并根据词权重在多个目标样本词中提取候选词;通过匹配模块将每个候选词与关键词及初始扩展词进行匹配,以获取关键词的目标扩展词。通过本发明的技术方案,通过对关键词进行扩展,可以全面地检测出具有敏感信息但经过变异的词,并对具有敏感信息的词进行过滤,从而提高了对具有敏感信息的数据的监测效果。
-
公开(公告)号:CN116028633A
公开(公告)日:2023-04-28
申请号:CN202111250773.1
申请日:2021-10-26
Applicant: 北京北大方正电子有限公司 , 北大方正集团有限公司 , 北京大学
IPC: G06F16/36 , G06F18/214
Abstract: 本申请提供一种知识图谱校验方法、装置、设备、可读介质和程序产品。该方法包括:获取待校验的知识图谱数据;通过规则学习算法,对待检验的知识图谱数据进行规则提取,获取知识图谱数据中规则集合,规则集合中包括多个表示知识图谱数据中实体之间的描述关系;若规则学习算法得到的规则集合中的实体及其描述关系满足阈值,则在规则集合中确定出错误规则;在知识图谱数据中确定错误规则对应的实体数据,并对错误规则对应的实体数据进行修正。本申请的方法,提高了知识图谱校验的准确性,降低了校验过程人力成本的消耗。
-
公开(公告)号:CN114722806A
公开(公告)日:2022-07-08
申请号:CN202110012985.X
申请日:2021-01-06
Applicant: 北京北大方正电子有限公司 , 北大方正集团有限公司 , 北京大学
IPC: G06F40/289 , G06F40/30 , G06F16/903 , G06K9/62
Abstract: 本申请实施例提供一种文本处理方法、装置及设备,该方法包括:对待处理的文本信息进行切分处理,得到第一字符串集合,所述文本信息对应第一技术领域;根据所述第一字符串集合中每个第一字符串的文本特征,在所述第一字符串集合中确定第二字符串集合,所述第二字符串集合中的第二字符串的文本特征满足预设要求;获取预设词语集合,所述预设词语集合中包括所述第一技术领域中预设类型的词语;根据所述第二字符串集合、所述预设词语集合和所述文本信息,确定所述文本信息中的目标词语集合。提高了获取新词的准确率。
-
公开(公告)号:CN107291754A
公开(公告)日:2017-10-24
申请号:CN201610204038.X
申请日:2016-04-01
Applicant: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
Abstract: 本发明提供了一种新闻评论的预测方法和新闻评论的预测系统,其中,新闻评论的预测方法包括:确定发布新闻所属的领域;获取预设时间范围内用户对所述领域的新闻的评论记录集合;根据所述发布新闻的关键字,确定所述发布新闻属于所述评论记录集合的评论概率;在所述评论记录集合中,确定用户评论过的新闻数量与新闻总数的评论比例;根据所述评论概率和所述评论比例对所述发布新闻的评论数目进行预测。通过本发明的技术方案,提高了对互联网的舆论热点新闻的宏观预测能力和调控性。
-
公开(公告)号:CN106294386A
公开(公告)日:2017-01-04
申请号:CN201510256461.X
申请日:2015-05-19
Applicant: 北大方正集团有限公司 , 北京大学北京北大方正电子有限公司
Abstract: 本发明提供一种任务分配执行方法及系统,该方法包括:任务分配方将任务文件存入分布式文件服务器并接收其反馈的存储目录,向任务协调服务器发送任务子节点创建请求;任务协调服务器在与所述任务分配方到所述任务执行方对应的父节点下创建以存储目录为标识的任务子节点;任务执行方确定存在需要执行的任务子节点时,从分布式文件服务器中获取任务文件并执行得到执行结果,将执行结果存储在存储目录中,并通知任务协调服务器;任务协调服务器删除任务子节点后通知任务分配方从存储目录中读取执行结果。通过任务协调服务器和分布式文件服务器来实现任务分配方和任务执行方的匿名任务分配、执行过程,保证了任务分配、执行的安全可靠。
-
公开(公告)号:CN106033438A
公开(公告)日:2016-10-19
申请号:CN201510111930.9
申请日:2015-03-13
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明提供一种舆情数据存储方法和服务器,该方法包括:获取待存储舆情数据,确定并将待存储舆情数据对应的话题标识、数据标识、展示字段和排序字段关联存储在缓存中得到待处理缓存数据;确定不存在与待处理缓存数据的话题标识对应的专题标识时,将待处理缓存数据的话题标识、数据标识和排序字段关联存储在近期数据库中;将待存储舆情数据存入历史数据库中;以第一话题存储格式存储待处理缓存数据的话题标识、数据标识和创建时间到实时数据库中;以第二话题存储格式存储待处理缓存数据的话题标识和展示字段到实时数据库中。完成舆情数据不同信息在近期数据库、历史数据库和实时数据库的依次分级别存储。
-
公开(公告)号:CN103186600B
公开(公告)日:2016-03-16
申请号:CN201110455219.7
申请日:2011-12-28
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种互联网舆情的专题分析方法,包括:采集互联网舆情文件;采用预设的专题规则匹配互联网舆情文件;对匹配成功的互联网舆情文件生成专题。本发明提供了一种互联网舆情的专题分析装置,包括:采集模块,用于采集互联网舆情文件;匹配模块,用于采用预设的专题规则匹配互联网舆情文件;生成模块,用于对匹配成功的互联网舆情文件生成专题。本发明实现了在海量舆情数据中及时准确地得到专题。
-
公开(公告)号:CN107291686A
公开(公告)日:2017-10-24
申请号:CN201610228512.2
申请日:2016-04-13
Applicant: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC: G06F17/27
Abstract: 本发明提供了一种情感标识的辨识方法和情感标识的辨识系统,其中,情感标识的辨识方法包括:根据情感标识的使用频率确定种子词和种子词对应的文本集合;在对应的文本集合中确定候选词语;根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识。通过本发明的技术方案,针对不同文本语境对情感标识进行识别,适用于多种互联网社交平台。
-
公开(公告)号:CN107220250A
公开(公告)日:2017-09-29
申请号:CN201610162744.2
申请日:2016-03-21
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
CPC classification number: G06F16/955
Abstract: 本发明提供了一种模板配置方法及系统,该方法包括:获取网页的URL地址,根据所述URL地址加载对应的网页;当接收到用户对所述网页触发的选取操作时,提取所述选取操作对应的网页内容;查找所述网页内容对应的网页节点在所述网页对应的树状结构中的位置,根据查找到的位置生成所述网页内容对应的抽取表达式;将所述抽取表达式传递给预设模板树中当前配置节点的Xpath属性,实现网页的模板配置。本发明解决了现有技术中手工配置模板过程费时费力,而且需要进行重复修正的问题,实现了模板的自动配置,为数据抽取、采集提供了有力的技术支持。
-
-
-
-
-
-
-
-
-