一种数据包负载的自动化构造方法

    公开(公告)号:CN107426053A

    公开(公告)日:2017-12-01

    申请号:CN201710617545.0

    申请日:2017-07-26

    发明人: 林康 罗鹰 张鑫阳

    IPC分类号: H04L12/26 H04L12/861

    摘要: 本发明公开了一种数据包负载的自动化构造方法。该方法预先确定特征配置,包括:特征内容、偏移值及深度。根据偏移值及深度确定每个特征配置在数据包负载中的初始覆盖范围,并对初始覆盖范围进行调整,最后对调整后的空位进行填充。本发明灵活性高,可以支持多种类型数据包的生成,扩展后对特定协议,如HTTP等也能方便地支持,相对于人工逐个构造数据包,具有更高的效率,并且不易出错。

    一种基于文本行的文档分段方法及装置

    公开(公告)号:CN107391457A

    公开(公告)日:2017-11-24

    申请号:CN201710616443.7

    申请日:2017-07-26

    发明人: 林康 罗鹰 张鑫阳

    IPC分类号: G06F17/21 G06F17/22

    摘要: 本发明涉及文本处理领域,本发明针对现有技术存在的问题,提供一种基于文本行的文档分段方法及装置。通过对个文本行单元的合并分数判断是否合并为同一段,当文本行得分不满足合并时,结束当前段落合并,开始新的段落。该方法简单有效的解决现有技术存在的问题。本发明提取出页面和文档数据结构,每一文本行对应的文档数据结构中提取该文本行信息;遍历全文的每个包含文本行的文档数据结构,根据这些文档数据结构的文本行信息构成的文本行信息列表,分别统计出计算出全文上下文和页面上下文信息,依据每个页面中的n个文本行单元结构列表,结合其他的上下文本行信息,对每个页面,按照分段算法将其中的文本行单元进行分段。

    一种可迭代优化的文档分析结果的保存方法

    公开(公告)号:CN107368472A

    公开(公告)日:2017-11-21

    申请号:CN201710616485.0

    申请日:2017-07-26

    发明人: 林鹰 罗康 张鑫阳

    IPC分类号: G06F17/27 G06F17/21

    摘要: 本发明公开了一种可迭代优化的文档分析结果的保存方法。所述方法包括读取原始文档,将原始文档存放到指定目录下的步骤;计算各段单元的ID、MD5值并存储到一个XML文件中的步骤;机器分析步骤;将分析结果按段落ID进行标记的步骤;人工初步验证的步骤。本发明提供了到段落级别的索引能力,并且存储了机器和人工分析结果,能提供更精细的处理能力,并且大大简化了工作量。

    一种数据包负载的自动化构造方法

    公开(公告)号:CN107426053B

    公开(公告)日:2021-01-05

    申请号:CN201710617545.0

    申请日:2017-07-26

    发明人: 林康 罗鹰 张鑫阳

    IPC分类号: H04L12/26 H04L12/861

    摘要: 本发明公开了一种数据包负载的自动化构造方法。该方法预先确定特征配置,包括:特征内容、偏移值及深度。根据偏移值及深度确定每个特征配置在数据包负载中的初始覆盖范围,并对初始覆盖范围进行调整,最后对调整后的空位进行填充。本发明灵活性高,可以支持多种类型数据包的生成,扩展后对特定协议,如HTTP等也能方便地支持,相对于人工逐个构造数据包,具有更高的效率,并且不易出错。

    一种可迭代优化的文档分析结果的保存方法

    公开(公告)号:CN107368472B

    公开(公告)日:2021-01-05

    申请号:CN201710616485.0

    申请日:2017-07-26

    发明人: 林鹰 罗康 张鑫阳

    摘要: 本发明公开了一种可迭代优化的文档分析结果的保存方法。所述方法包括读取原始文档,将原始文档存放到指定目录下的步骤;计算各段单元的ID、MD5值并存储到一个XML文件中的步骤;机器分析步骤;将分析结果按段落ID进行标记的步骤;人工初步验证的步骤。本发明提供了到段落级别的索引能力,并且存储了机器和人工分析结果,能提供更精细的处理能力,并且大大简化了工作量。

    一种文本情感分析特征验证的前置处理方法

    公开(公告)号:CN105468731B

    公开(公告)日:2018-10-02

    申请号:CN201510815462.3

    申请日:2015-11-20

    发明人: 罗鹰 张鑫阳 林康

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种文本情感分析特征验证的前置处理方法,通过对原始训练集的预处理得到预处理信息:确定原始训练集的概要,确定原特征向量集的概要,对原始数据进行扩充,从而构造出整合后的预处理信息;然后,对预处理信息进行特征验证和特征选择。本发明的积极效果是:本发明从训练集和特征向量两个方面着手生成分析信息,既保障了评估结论的信息丰富程度,同时又有助于提高整个情感分析流程的准确度。本发明还具备良好的通用性和可扩展性,对各种不同建模和实现的情感分析算法都能发挥良好效果。

    一种用于网络安全报告的文本特征模型建模方法及装置

    公开(公告)号:CN107368592A

    公开(公告)日:2017-11-21

    申请号:CN201710616406.6

    申请日:2017-07-26

    发明人: 林康 罗鹰 张鑫阳

    IPC分类号: G06F17/30 G06K9/62

    摘要: 本发明涉及文本处理领域。针对现有技术存在的问题,本发明提供一种用于网络安全报告的文本特征模型建模方法及装置。该方法或者装置是结合全文和段落信息,同时结合词频与文本特征信息,来构建特定领域的文本模型;对需要分析的网络安全报告进行网络安全分析。本发明对文档的分析主要以段落为基础,首先读取文档,计算全文的段落文本密度和关键词频,然后对每个段落提取位置信息、长度信息、关键字段信息、段向量,将这些信息组成该段落的特征向量,然后按照该特征向量对段落进行分类。在完成所有段落的分析后,即可建立起全文的数据模型。

    一种文本情感分析特征验证的前置处理方法

    公开(公告)号:CN105468731A

    公开(公告)日:2016-04-06

    申请号:CN201510815462.3

    申请日:2015-11-20

    发明人: 罗鹰 张鑫阳 林康

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种文本情感分析特征验证的前置处理方法,通过对原始训练集的预处理得到预处理信息:确定原始训练集的概要,确定原特征向量集的概要,对原始数据进行扩充,从而构造出整合后的预处理信息;然后,对预处理信息进行特征验证和特征选择。本发明的积极效果是:本发明从训练集和特征向量两个方面着手生成分析信息,既保障了评估结论的信息丰富程度,同时又有助于提高整个情感分析流程的准确度。本发明还具备良好的通用性和可扩展性,对各种不同建模和实现的情感分析算法都能发挥良好效果。

    一种基于文本行的文档分段方法及装置

    公开(公告)号:CN107391457B

    公开(公告)日:2020-10-27

    申请号:CN201710616443.7

    申请日:2017-07-26

    发明人: 林康 罗鹰 张鑫阳

    IPC分类号: G06F40/10 G06F40/12

    摘要: 本发明涉及文本处理领域,本发明针对现有技术存在的问题,提供一种基于文本行的文档分段方法及装置。通过对个文本行单元的合并分数判断是否合并为同一段,当文本行得分不满足合并时,结束当前段落合并,开始新的段落。该方法简单有效的解决现有技术存在的问题。本发明提取出页面和文档数据结构,每一文本行对应的文档数据结构中提取该文本行信息;遍历全文的每个包含文本行的文档数据结构,根据这些文档数据结构的文本行信息构成的文本行信息列表,分别统计出计算出全文上下文和页面上下文信息,依据每个页面中的n个文本行单元结构列表,结合其他的上下文本行信息,对每个页面,按照分段算法将其中的文本行单元进行分段。