-
公开(公告)号:CN112949289B
公开(公告)日:2024-11-05
申请号:CN201911263865.6
申请日:2019-12-11
申请人: 新方正控股发展有限责任公司 , 北京北大方正电子有限公司
IPC分类号: G06F40/232 , G06F40/289 , G06F40/211
摘要: 本发明提供一种检测叠词错误的方法、装置及系统,该方法包括:获取文本,并得到多个待检测文本,且获得待检测文本中的重复词组;对重复词组所在的原始文本片段进行分词,检测是否存在相邻叠词;若存在相邻叠词,将相邻叠词的词性在预设词性数据库中进行匹配;若匹配成功,则将原始文本片段中的一个叠词进行删除得到待检测文本片段,并得到原始文本片段和待检测文本片段的使用概率;若原始文本片段的使用概率小于待检测文本片段的使用概率,则确定相邻叠词在原始文本片段中使用错误。实现了叠词误用的判断,提高检测的准确率和检测速度,且能够适应不同长度的句子,进而提高长句叠词判断的准确率。
-
公开(公告)号:CN114925194A
公开(公告)日:2022-08-19
申请号:CN202110135322.7
申请日:2021-02-01
申请人: 北大方正集团有限公司 , 北京大学 , 北大方正信息产业集团有限公司 , 北京北大方正电子有限公司
摘要: 本申请提供一种故事线图生成方法和装置。该方法包括:服务器在确定时间切片后,使用聚类算法对时间切片中的事件进行聚类,确定各个时间切片中的事件信息簇。服务器从每一时间切片中选择一个事件信息簇。服务器根据该时间切片在时间序列中的排序,对选择的事件信息簇进行排序,得到事件信息簇序列。服务器在完成对事件信息簇序列的例举后,可以根据第一预设条件,从例举的事件信息簇序列中选择部分或者全部事件信息簇序列作为候选故事线。服务器将该候选故事线中的事件信息簇作为节点,将每一候选故事线的连接关系作为边,生成故事线图。本申请的方法,增加了故事线图的涵盖范围,提高了故事线图结构性。
-
公开(公告)号:CN113535886A
公开(公告)日:2021-10-22
申请号:CN202010293026.5
申请日:2020-04-15
申请人: 北大方正信息产业集团有限公司 , 北京北大方正电子有限公司 , 北大方正集团有限公司
IPC分类号: G06F16/33 , G06F16/903
摘要: 本发明实施例提供一种信息处理方法、装置和设备,该方法包括:获取待处理的新闻信息;确定新闻信息的特征信息,特征信息包括所述新闻信息的新闻因素,新闻因素包括如下至少一种:新闻情绪、新闻价值、新闻阶层、新闻类型;根据特征信息,确定新闻信息的影响力。提高了新闻影响力的准确度。
-
-