一种针对社交文本的切分取词方法及系统

    公开(公告)号:CN114021564A

    公开(公告)日:2022-02-08

    申请号:CN202210008487.2

    申请日:2022-01-06

    摘要: 本发明公开了一种针对社交文本的切分取词方法及系统,属于社交文本处理技术领域,针对现有技术中存在的无法满足对从事网络诈骗的人员涉及的社交文本进行精准切分的问题,本发明包括文本预处理模块,N‑gram词库创建模块,分词函数模块和N‑gram词库更新模块,根据分词模块中的自定义分词函数对文本信息进行精准分词,且设置一定的更新周期,更新周期间产生的新数据对N‑gram词库进行更新,以便提升分词准确度,其目的为:针对上述关于从事网络诈骗的人员聊天信息强烈鲜明的语言风格,以及与传统聊天内容上的巨大差别,本发明根据不同类型的语料,形成有自身特点的文本识别和切分技术,对文本进行精准切分取词。

    一种针对社交文本的实体账号抽取方法及系统

    公开(公告)号:CN115859988A

    公开(公告)日:2023-03-28

    申请号:CN202310076928.7

    申请日:2023-02-08

    IPC分类号: G06F40/295 G06F40/289

    摘要: 本发明公开了一种针对社交文本的实体账号抽取方法及系统,属于数据分析技术领域,针对现有技术中存在人员在社交平台上发布各种实体账号泄露信息的问题,本发明采用的技术方案包括:通过正则表达式对输入的社交文本进行抽取,得到第一疑似实体账号和其对应的类别,并输出到正则实体字典中;然后对社交文本进行分词抽取,得到将第二疑似实体账号和其对应的类别,并输出到分词实体字典中;将正则实体字典和分词实体字典进行合并校正,将得到的结果输出到最终实体字典中;最后对最终实体字典中的实体账号进行验证,验证完成输出实体账号。其目的为:利用各种账号的组成规则以及语言表达风格,通过设置规则将社交文本中的实体账号提取出来。

    一种虚拟货币交易追踪溯源方法及系统

    公开(公告)号:CN114119026B

    公开(公告)日:2022-04-01

    申请号:CN202210089153.2

    申请日:2022-01-26

    IPC分类号: G06Q20/38 G06Q40/04

    摘要: 本发明公开了一种虚拟货币交易追踪溯源方法及系统,主要包括原始交易数据提取、交易信息追踪溯源、交易数据补充回填、绘制交易信息流转图、结果输出五大模块。系统的入口需提供一个及以上的基于ERC20协议的USDT区块地址,将其定义为输入地址,通过已经同步的链上交易信息,对输入地址的转入转出交易数据进行提取,利用已经编写好的分析模型,对提取后的交易进行层层的筛选、过滤、追踪溯源,将整个交易链路分析清楚,回填交易详情数据,绘制交易信息流转图,最后根据预设的报告模板,填充内容输出分析报告。

    一种虚拟货币交易追踪溯源方法及系统

    公开(公告)号:CN114119026A

    公开(公告)日:2022-03-01

    申请号:CN202210089153.2

    申请日:2022-01-26

    IPC分类号: G06Q20/38 G06Q40/04

    摘要: 本发明公开了一种虚拟货币交易追踪溯源方法及系统,主要包括原始交易数据提取、交易信息追踪溯源、交易数据补充回填、绘制交易信息流转图、结果输出五大模块。系统的入口需提供一个及以上的基于ERC20协议的USDT区块地址,将其定义为输入地址,通过已经同步的链上交易信息,对输入地址的转入转出交易数据进行提取,利用已经编写好的分析模型,对提取后的交易进行层层的筛选、过滤、追踪溯源,将整个交易链路分析清楚,回填交易详情数据,绘制交易信息流转图,最后根据预设的报告模板,填充内容输出分析报告。

    一种针对社交文本的实体账号抽取方法及系统

    公开(公告)号:CN115859988B

    公开(公告)日:2023-10-03

    申请号:CN202310076928.7

    申请日:2023-02-08

    IPC分类号: G06F40/295 G06F40/289

    摘要: 本发明公开了一种针对社交文本的实体账号抽取方法及系统,属于数据分析技术领域,针对现有技术中存在人员在社交平台上发布各种实体账号泄露信息的问题,本发明采用的技术方案包括:通过正则表达式对输入的社交文本进行抽取,得到第一疑似实体账号和其对应的类别,并输出到正则实体字典中;然后对社交文本进行分词抽取,得到将第二疑似实体账号和其对应的类别,并输出到分词实体字典中;将正则实体字典和分词实体字典进行合并校正,将得到的结果输出到最终实体字典中;最后对最终实体字典中的实体账号进行验证,验证完成输出实体账号。其目的为:利用各种账号的组成规则以及语言表达风格,通过设置规则将社交文本中的实体账号提取出来。

    一种针对社交文本的切分取词方法及系统

    公开(公告)号:CN114021564B

    公开(公告)日:2022-04-01

    申请号:CN202210008487.2

    申请日:2022-01-06

    摘要: 本发明公开了一种针对社交文本的切分取词方法及系统,属于社交文本处理技术领域,针对现有技术中存在的无法满足对从事网络诈骗的人员涉及的社交文本进行精准切分的问题,本发明包括文本预处理模块,N‑gram词库创建模块,分词函数模块和N‑gram词库更新模块,根据分词模块中的自定义分词函数对文本信息进行精准分词,且设置一定的更新周期,更新周期间产生的新数据对N‑gram词库进行更新,以便提升分词准确度,其目的为:针对上述关于从事网络诈骗的人员聊天信息强烈鲜明的语言风格,以及与传统聊天内容上的巨大差别,本发明根据不同类型的语料,形成有自身特点的文本识别和切分技术,对文本进行精准切分取词。