一种针对社交文本的实体账号抽取方法及系统
摘要:
本发明公开了一种针对社交文本的实体账号抽取方法及系统,属于数据分析技术领域,针对现有技术中存在人员在社交平台上发布各种实体账号泄露信息的问题,本发明采用的技术方案包括:通过正则表达式对输入的社交文本进行抽取,得到第一疑似实体账号和其对应的类别,并输出到正则实体字典中;然后对社交文本进行分词抽取,得到将第二疑似实体账号和其对应的类别,并输出到分词实体字典中;将正则实体字典和分词实体字典进行合并校正,将得到的结果输出到最终实体字典中;最后对最终实体字典中的实体账号进行验证,验证完成输出实体账号。其目的为:利用各种账号的组成规则以及语言表达风格,通过设置规则将社交文本中的实体账号提取出来。
公开/授权文献
0/0