检测叠词错误的方法、装置及系统

    公开(公告)号:CN112949289B

    公开(公告)日:2024-11-05

    申请号:CN201911263865.6

    申请日:2019-12-11

    摘要: 本发明提供一种检测叠词错误的方法、装置及系统,该方法包括:获取文本,并得到多个待检测文本,且获得待检测文本中的重复词组;对重复词组所在的原始文本片段进行分词,检测是否存在相邻叠词;若存在相邻叠词,将相邻叠词的词性在预设词性数据库中进行匹配;若匹配成功,则将原始文本片段中的一个叠词进行删除得到待检测文本片段,并得到原始文本片段和待检测文本片段的使用概率;若原始文本片段的使用概率小于待检测文本片段的使用概率,则确定相邻叠词在原始文本片段中使用错误。实现了叠词误用的判断,提高检测的准确率和检测速度,且能够适应不同长度的句子,进而提高长句叠词判断的准确率。

    故事线图生成方法和装置
    2.
    发明公开

    公开(公告)号:CN114925194A

    公开(公告)日:2022-08-19

    申请号:CN202110135322.7

    申请日:2021-02-01

    IPC分类号: G06F16/34 G06F16/35 G06K9/62

    摘要: 本申请提供一种故事线图生成方法和装置。该方法包括:服务器在确定时间切片后,使用聚类算法对时间切片中的事件进行聚类,确定各个时间切片中的事件信息簇。服务器从每一时间切片中选择一个事件信息簇。服务器根据该时间切片在时间序列中的排序,对选择的事件信息簇进行排序,得到事件信息簇序列。服务器在完成对事件信息簇序列的例举后,可以根据第一预设条件,从例举的事件信息簇序列中选择部分或者全部事件信息簇序列作为候选故事线。服务器将该候选故事线中的事件信息簇作为节点,将每一候选故事线的连接关系作为边,生成故事线图。本申请的方法,增加了故事线图的涵盖范围,提高了故事线图结构性。