支持用户策略配置的基于Web网络的非结构化文本获取方法

    公开(公告)号:CN109597928B

    公开(公告)日:2022-12-16

    申请号:CN201811483053.8

    申请日:2018-12-05

    Inventor: 张新阳 李辉 保富

    Abstract: 一种支持用户策略配置的基于Web网络的非结构化文本获取方法,包括文本采集器存储初始化步骤,文本采集器种子地址初始化步骤,文本采集器页面资源获取步骤,页面分析与存储步骤,页面文本内容层次聚类步骤,文本数据聚类情况反馈步骤,实时/准实时用户策略配置步骤,文本采集器响应用户反馈步骤。本发明能够对已爬取的资源的评估来动态地调整Web网络文本采集系统即网络爬虫的选择策略,实现在一个特定的组织内更好与更高效的文本数据采集与高质量的文本数据资源池的构建,实现在很短的时期内即可将具有丰富特征的文本数据建立起信息资源池,提高爬虫效率,节省信息采集的周期。

    基于CUDA的数字图像几何变换方法、装置、设备及介质

    公开(公告)号:CN111507891A

    公开(公告)日:2020-08-07

    申请号:CN202010288204.5

    申请日:2020-04-14

    Abstract: 本申请涉及一种基于CUDA的数字图像几何变换方法、基于CUDA的数字图像几何变换装置、计算机设备及计算机可读存储介质,上述方法包括:根据纹理内存拾取纹理参数;根据所述纹理参数,得到源图片的纹理坐标;对所述纹理坐标进行坐标变换,以得到参考图像坐标;以及根据所述参考图像坐标,得到并显示数字图像。上述基于CUDA的数字图像几何变换方法,能够进行高速缓存从而提高图像转换速度,并且所受限制较少。

    基于遗传算法的文本数据半监督聚类方法

    公开(公告)号:CN109508374A

    公开(公告)日:2019-03-22

    申请号:CN201811373404.X

    申请日:2018-11-19

    Inventor: 马文 张新阳 李辉

    Abstract: 基于遗传算法的半监督文本聚类方法,可以应用到各专业领域如电力行业数据的文本数据分析中,通过tftdf将文本数据集中的文本进行特征权计算,并将根据特征权值进行初始聚类计算,按照遗传算法,将文本内重要特征词间平衡距离作为分类适应度,实现聚类结果的优化。通过人机交互对聚类结果进行审阅并根据经验知识对聚类结果进行修改和调整,再次运用遗传算法进行调整后聚类的迭代与二次优化,达到最终文本聚类的效果。本方法有效结合了文本数据无监督聚类方法的易用性与有监督聚类方法的准确性及计算高效性,能够有效平衡通常文本数据聚类分析与人工分类结果差别太大及计算资源消耗过多等问题,改善了文本聚类的运行效果。

    基于Web采集与文本特征均衡分布的语料库构建方法

    公开(公告)号:CN109522549B

    公开(公告)日:2022-06-10

    申请号:CN201811273931.3

    申请日:2018-10-30

    Abstract: 一种基于Web采集与文本特征均衡分布的语料库构建方法,利用Web进行语料收集,采用基于词典的方式对预处理后的生语料进行标注,利用代表性度量模型对语料素材在语料库中的代表性进行量化并排序,形成按照降序排列的语料素材序列,利用这些序列可以实现任意规模的最逼近的语料子库。例如可以通过增量方式对电力语料库进行更新,从而建立起能够自由扩充的电力行业专用语料库。同时量化排序后的语料素材序列支持对语料库进行子集化操作,即取得一部分语料库的素材,使其尽可能地代表原始语料库的相关特性,从而开展语料库的离线应用。

    基于Web采集与文本特征均衡分布的语料库构建方法

    公开(公告)号:CN109522549A

    公开(公告)日:2019-03-26

    申请号:CN201811273931.3

    申请日:2018-10-30

    Abstract: 一种基于Web采集与文本特征均衡分布的语料库构建方法,利用Web进行语料收集,采用基于词典的方式对预处理后的生语料进行标注,利用代表性度量模型对语料素材在语料库中的代表性进行量化并排序,形成按照降序排列的语料素材序列,利用这些序列可以实现任意规模的最逼近的语料子库。例如可以通过增量方式对电力语料库进行更新,从而建立起能够自由扩充的电力行业专用语料库。同时量化排序后的语料素材序列支持对语料库进行子集化操作,即取得一部分语料库的素材,使其尽可能地代表原始语料库的相关特性,从而开展语料库的离线应用。

Patent Agency Ranking