-
公开(公告)号:CN112131377A
公开(公告)日:2020-12-25
申请号:CN202010808203.9
申请日:2020-08-12
Applicant: 北京邮电大学
IPC: G06F16/35 , G06F16/335 , G06F40/216 , G06F40/30 , G06K9/62 , H04L12/58
Abstract: 本发明公开了一种基于多策略的群聊话题检测方法、装置、设备及存储介质,所述方法包括:根据话题的属性信息得到话题序列,其中,话题序列包括当前话题和过期话题,所述当前话题包括普通话题和热点话题,根据群聊消息的文本特征信息和辅助信息与所述当前话题进行匹配,将群聊消息加入对应的话题中;计算各个话题之间的第一相似度,当所述第一相似度大于等于预设第一阈值时,合并话题。本发明公开的群聊话题检测方法,通过构建话题序列解决了话题交叉的问题,通过利用辅助信息减小短文本特征稀疏对聚类效果的影响,大大提高了群聊话题检测的效率和准确度。
-
公开(公告)号:CN109886348A
公开(公告)日:2019-06-14
申请号:CN201910153794.8
申请日:2019-03-01
Applicant: 北京邮电大学
IPC: G06K9/62
Abstract: 本发明实施例提出了一种基于杠杆原理度量中心偏移的异常检测方法,包括:使用Min-Max归一化方法处理训练数据集,对处理后的训练数据集按比例随机抽样得到子集,并将子集的均值向量作为支点中心;在训练数据集中使用Min-Max归一化方法处理测试点,将处理后的测试点复制一定数目加入子集,计算扩增后子集的均值向量,得到新支点中心;计算扩增前后支点中心的欧氏距离,作为测试点的异常得分;对子集中每条数据的异常得分进行多项式函数拟合,将函数梯度位于黄金分割处的异常得分作为数据正、异常阈值,并结合子集的偏度对后续测试点正、异常进行标定。本发明实施例提供的技术方案,可以有效解决异常检测方法计算复杂度高及参数调优难度大等问题。
-