-
公开(公告)号:CN107291754B
公开(公告)日:2020-12-04
申请号:CN201610204038.X
申请日:2016-04-01
申请人: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC分类号: G06F16/953 , G06K9/62
摘要: 本发明提供了一种新闻评论的预测方法和新闻评论的预测系统,其中,新闻评论的预测方法包括:确定发布新闻所属的领域;获取预设时间范围内用户对所述领域的新闻的评论记录集合;根据所述发布新闻的关键字,确定所述发布新闻属于所述评论记录集合的评论概率;在所述评论记录集合中,确定用户评论过的新闻数量与新闻总数的评论比例;根据所述评论概率和所述评论比例对所述发布新闻的评论数目进行预测。通过本发明的技术方案,提高了对互联网的舆论热点新闻的宏观预测能力和调控性。
-
公开(公告)号:CN107291685B
公开(公告)日:2020-10-13
申请号:CN201610228402.6
申请日:2016-04-13
申请人: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC分类号: G06F40/279 , G06F40/30
摘要: 本发明提供了一种语义识别方法和语义识别系统,其中,语义识别方法包括:确定与关键词相关的多个参考词汇,以及与关键词相邻的局部文本;计算参考词汇属于局部文本的概率,并记作第一概率;在检测到第一参考词汇的第一概率大于或等于预设概率时,确定第一参考词汇相关的语义作为关键词的语义,其中,第一参考词汇属于多种参考词汇。通过本发明技术方案,综合关键词的局部搭配和全局语境判断关键词的语义,提高了语义识别的准确率。
-
公开(公告)号:CN107193796A
公开(公告)日:2017-09-22
申请号:CN201610197073.3
申请日:2016-03-31
申请人: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
CPC分类号: G06F17/2785 , G06F17/3089
摘要: 本发明公开了一种舆情事件检测方法及装置,方法包括:获取待检测文本的特征词向量;获取所有特征词对应的向量,并获取敏感义项向量;计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度;获取相似度最大时对应的第一敏感义项,并获取待检测文本中第一敏感义项的数量和待检测文本中特征词的数量,根据第一预设权值和第二预设权值,计算第一敏感义项的数量和特征词的数量的加权和,当加权和大于阈值时确定待检测文本中描述的事件为舆情事件。本发明通过对待检测文本向量化,能够达到有效的语义约束;同时通过计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度,能够准确检测出需要进行关注的舆情事件的问题。
-
公开(公告)号:CN106156017A
公开(公告)日:2016-11-23
申请号:CN201510128025.4
申请日:2015-03-23
申请人: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC分类号: G06F17/30
摘要: 本发明提出了一种信息识别方法和一种信息识别系统,其中,所述信息识别方法包括:通过特征词获取模块获取所述当前数据的特征词;通过关键词关联模块在关键词数据库中确定与所述特征词相关联的关键词;通过变异词确定模块确定所述关键词的多个变异词;通过匹配模块将所述特征词与所述多个变异词中的每个变异词进行匹配,以供根据匹配结果,确定是否将所述特征词识别为所述关键词。通过本发明的技术方案,可以准确地检测出经过变异的敏感信息,从而便于对敏感信息进行有效且全面的检测,避免出现敏感信息的漏检。
-
公开(公告)号:CN107291754A
公开(公告)日:2017-10-24
申请号:CN201610204038.X
申请日:2016-04-01
申请人: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
摘要: 本发明提供了一种新闻评论的预测方法和新闻评论的预测系统,其中,新闻评论的预测方法包括:确定发布新闻所属的领域;获取预设时间范围内用户对所述领域的新闻的评论记录集合;根据所述发布新闻的关键字,确定所述发布新闻属于所述评论记录集合的评论概率;在所述评论记录集合中,确定用户评论过的新闻数量与新闻总数的评论比例;根据所述评论概率和所述评论比例对所述发布新闻的评论数目进行预测。通过本发明的技术方案,提高了对互联网的舆论热点新闻的宏观预测能力和调控性。
-
公开(公告)号:CN106484672A
公开(公告)日:2017-03-08
申请号:CN201510536145.8
申请日:2015-08-27
申请人: 北大方正集团有限公司 , 北京大学北京北大方正电子有限公司
摘要: 本发明提出了一种词汇识别方法和一种词汇识别系统,其中,所述词汇识别方法包括:根据接收到的词汇识别命令,从待处理文本中获取多个候选关键词,并将多个候选关键词发送至统计单元;通过统计单元接收多个候选关键词,统计多个候选关键词的参数信息,并将多个候选关键词的参数信息发送至识别单元;通过识别单元接收参数信息,并根据多个候选关键词的参数信息,对多个候选关键词进行过滤,以识别目标关键词。通过本发明的技术方案,可以比较全面地获取候选关键词,从而可以从候选关键词中比较全面地识别流行词等新词,进而可以通过识别出的流行词等新词来发现网络热点和分析舆论走向。
-
公开(公告)号:CN107193796B
公开(公告)日:2021-12-24
申请号:CN201610197073.3
申请日:2016-03-31
申请人: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC分类号: G06F40/30 , G06F16/958
摘要: 本发明公开了一种舆情事件检测方法及装置,方法包括:获取待检测文本的特征词向量;获取所有特征词对应的向量,并获取敏感义项向量;计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度;获取相似度最大时对应的第一敏感义项,并获取待检测文本中第一敏感义项的数量和待检测文本中特征词的数量,根据第一预设权值和第二预设权值,计算第一敏感义项的数量和特征词的数量的加权和,当加权和大于阈值时确定待检测文本中描述的事件为舆情事件。本发明通过对待检测文本向量化,能够达到有效的语义约束;同时通过计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度,能够准确检测出需要进行关注的舆情事件的问题。
-
公开(公告)号:CN107291686B
公开(公告)日:2020-10-16
申请号:CN201610228512.2
申请日:2016-04-13
申请人: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC分类号: G06F40/30
摘要: 本发明提供了一种情感标识的辨识方法和情感标识的辨识系统,其中,情感标识的辨识方法包括:根据情感标识的使用频率确定种子词和种子词对应的文本集合;在对应的文本集合中确定候选词语;根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识。通过本发明的技术方案,针对不同文本语境对情感标识进行识别,适用于多种互联网社交平台。
-
公开(公告)号:CN107291685A
公开(公告)日:2017-10-24
申请号:CN201610228402.6
申请日:2016-04-13
申请人: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC分类号: G06F17/27
摘要: 本发明提供了一种语义识别方法和语义识别系统,其中,语义识别方法包括:确定与关键词相关的多个参考词汇,以及与关键词相邻的局部文本;计算参考词汇属于局部文本的概率,并记作第一概率;在检测到第一参考词汇的第一概率大于或等于预设概率时,确定第一参考词汇相关的语义作为关键词的语义,其中,第一参考词汇属于多种参考词汇。通过本发明技术方案,综合关键词的局部搭配和全局语境判断关键词的语义,提高了语义识别的准确率。
-
公开(公告)号:CN107291686A
公开(公告)日:2017-10-24
申请号:CN201610228512.2
申请日:2016-04-13
申请人: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC分类号: G06F17/27
摘要: 本发明提供了一种情感标识的辨识方法和情感标识的辨识系统,其中,情感标识的辨识方法包括:根据情感标识的使用频率确定种子词和种子词对应的文本集合;在对应的文本集合中确定候选词语;根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识。通过本发明的技术方案,针对不同文本语境对情感标识进行识别,适用于多种互联网社交平台。
-
-
-
-
-
-
-
-
-