同话题定位跟踪式论坛爬虫系统

    公开(公告)号:CN101436197A

    公开(公告)日:2009-05-20

    申请号:CN200810180824.6

    申请日:2008-11-25

    Inventor: 杨溥 郭军 徐蔚然

    Abstract: 本发明公开了一种同话题定位跟踪式论坛爬虫系统,包括以下部件:非文本粗略过滤器,非文本精确过滤器,超链接补全器,纯网页超链接存储库,同话题定位跟踪器,同话题网页超链接存储库,网页组数据下载器,统一编号器,网页组数据存储库,以及纯网页超链接供应器。通过应用本发明所描述的系统,可以有效地解决爬虫系统采集论坛数据大量冗余和凌乱无序的问题;可以为搭建论坛搜索引擎系统的重要组成部分——论坛数据采集系统提供通用可靠的搭建框架;显著降低论坛爬虫系统的开发难度,进一步有效地降低论坛搜索引擎系统开发成本。

    多线程断点续传可定制内部网爬虫系统

    公开(公告)号:CN101299219A

    公开(公告)日:2008-11-05

    申请号:CN200810126456.7

    申请日:2008-06-27

    Inventor: 杨溥 郭军 徐蔚然

    Abstract: 本发明公开了一种多线程断点续传可定制内部网爬虫系统,包括以下部件:多线程产生器,断点续传器,超链接分析提取器,内部网分析器,超链接存储库,数据类型评判器,数据下载器,数据存储库,异常处理器,以及超链接提供器。通过应用本发明所描述的系统,可以有效地解决爬虫系统无法采集内部网数据的问题;可以为搭建特色搜索引擎所需的重要技术——爬虫系统的数据类型针对性提供通用的框架;可以避免爬虫的重复性爬取;显著提高爬虫系统应对突发事件的能力,进一步提高爬抓效率和爬抓速度,有效地降低系统开发成本。

    用于文字识别的训练样本自动挑选装置及其方法

    公开(公告)号:CN1231864C

    公开(公告)日:2005-12-14

    申请号:CN02157956.3

    申请日:2002-12-23

    Abstract: 本发明公开了一种用于文字识别的训练样本自动挑选装置和方法,所述的装置包括:样本输入装置、样本数据存储单元、训练装置、模型数据库、识别装置、识别结果分析装置、边界样本选择装置、挑选结果输出装置和控制处理装置。所述的方法是根据训练样本对于训练的作用,将训练样本分为好样本、边界样本、差样本三种类型,并通过训练样本进行训练、识别的结果计算广义距离差,根据广义距离差给出三种样本的定义,最后通过边界样本的选择实现训练样本的挑选。本发明的装置和方法思路简捷,能够实现训练样本的自动挑选,挑选结果更加准确,从而使得训练出的模型更加精确,有效提高文字识别系统的识别率。

    基于疑问词分类器的神经网络问题生成方法及生成系统

    公开(公告)号:CN113094489A

    公开(公告)日:2021-07-09

    申请号:CN202110498928.7

    申请日:2021-05-08

    Abstract: 基于疑问词分类器的神经网络问题生成方法及生成系统,涉及互联网技术领域,解决现有基于分类器的网络模型存在生成问题中的疑问词不准确,导致存在根本性错误等问题,生成系统包括答案位置标注模块、疑问词分类器、疑问词添加模块以及神经网络问题生成模型;本发明在神经网络问题生成任务的基础上,将疑问词预测任务建模为一个独立的分类任务,即在神经网络问题生成模型之前,引入一个疑问词分类器,先通过疑问词分类器识别最可能提问的疑问词,再生成完整的问题。目的是提高疑问词生成的准确率和可解释性,最终减小所生成问题和真实问题的差异,提高问题的质量。

    建模对话轮次信息的检索式闲聊对话打分方法

    公开(公告)号:CN110309287B

    公开(公告)日:2021-07-06

    申请号:CN201910612036.8

    申请日:2019-07-08

    Abstract: 本发明提供了一种引入对话历史信息的局部注意力机制的检索式对话系统,在开放领域的检索式对话中,传统的模型分为表示层,匹配层,集成层,预测层中,最后从候选集中选出和对话最匹配的候选回复。将表示层划分成单句表示和句间关系两部分进行分别建模。在建模对话的轮次信息时使用局部注意力机制,使得在训练模型时,注意力机制能够获得对于匹配任务更有帮助的轮次信息。局部注意力机制也能够提高模型对整个对话中不同位置内容的关注能力。针对对话中的每部分内容,对重要信息赋予较大权重,次要信息或干扰信息赋予较小权重,实现更好的回复匹配,加快训练速度,提高模型效率。

    一种基于隐多粒度局部特征的中文分词方法

    公开(公告)号:CN107145484A

    公开(公告)日:2017-09-08

    申请号:CN201710269863.2

    申请日:2017-04-24

    CPC classification number: G06F17/2775 G06N3/04

    Abstract: 本发明实施例公开了一种基于隐多粒度局部特征的中文分词方法。属于信息处理领域。该方法的特征包括:先利用多卷积核的卷积神经网络处理待分词文本,得到待分词文本的隐多粒度局部特征;再经过一个k‑max池化层,仅保留其中比较重要的局部特征;接着由一个双向的LSTM循环神经网络将句子中的上下文信息联系起来;最后应用标签推断,得到句子级别上的最优分词结果。本发明通过结合隐多粒度局部特征和上下文信息,使得分词效果得到提升,具有很大的实用价值。

    自动动态更新论坛爬虫系统的构建方法

    公开(公告)号:CN101436196B

    公开(公告)日:2010-12-08

    申请号:CN200810180823.1

    申请日:2008-11-25

    Inventor: 杨溥 郭军 徐蔚然

    Abstract: 本发明公开了一种自动动态更新论坛爬虫系统的构建方法,该方法包括下列步骤:(1)提取存储纯网页超链接;(2)判断话题网页位置;(3)检测话题网页新旧;(4)新话题网页处理;(5)旧话题网页处理;(6)纯网页超链接情况判断处理。通过应用本发明所描述的方法,可以有效地避免静态更新的弊端;可以自动实时地更新论坛网页;可以为搭建动态更新论坛爬虫系统提供通用的设计框架;更加迅速便利地实现系统开发,有效地降低系统开发成本。

    一种短信过滤的方法和装置

    公开(公告)号:CN101877837A

    公开(公告)日:2010-11-03

    申请号:CN200910136156.1

    申请日:2009-04-30

    Abstract: 本发明实施例公开了一种短信过滤方法,分类器由包含复数个特征项的向量组成,包括:分类过滤接收到的短信,获取所述短信为垃圾短信的概率和正常短信的概率;如果所述垃圾短信的概率和所述正常短信的概率之差的绝对值小于预设阈值,则获取所述短信的反馈结果;根据所述反馈结果进行自适应学习后,更新分类器;如果所述短信有不在热点词库中的新词,则根据预置条件进行词频排序后,更新分类器。还公开了一种短信过滤装置,利用本发明实施例,能够动态跟进短信信息内容的变化,调整短信过滤方式,提高短信的过滤能力。

    防假死爬虫系统的构建方法

    公开(公告)号:CN101504665A

    公开(公告)日:2009-08-12

    申请号:CN200910080438.4

    申请日:2009-03-18

    Inventor: 杨溥 郭军 徐蔚然

    Abstract: 本发明公开了一种防假死爬虫系统的构建方法,该方法包括下列步骤:(1)检测处理被请求网页;(2)检测处理网络响应;(3)检测处理存储空间;(4)重复执行步骤(1),(2)和(3),直到网页超链接全部处理完为止。通过应用本发明所描述的方法,可以有效地防止爬虫系统假死状态的发生;可以显著地减少爬虫系统等待时间和提高爬虫系统的爬抓效率;可以为搭建具有健壮性的爬虫系统提供通用的框架,有效地降低系统开发成本。

    内部网可定制爬虫系统构建方法

    公开(公告)号:CN101295321A

    公开(公告)日:2008-10-29

    申请号:CN200810126457.1

    申请日:2008-06-27

    Inventor: 杨溥 郭军 徐蔚然

    Abstract: 本发明公开了一种内部网可定制爬出系统构建方法,该方法包括下列步骤:(1)分析超链接所指向的数据是否是web网页;(2)若是web网页,则分析web网页,处理超链接信息;若不是web网页,则直接进入步骤(3);(3)根据定制下载数据;(4)重复执行步骤(1),(2)和(3),直到没有需要处理的超链接为止。通过应用本发明所描述的方法,可以有效地解决爬虫系统无法采集内部网数据的问题;可以为搭建特色搜索引擎所需的重要技术——爬虫系统的数据类型针对性提供通用的框架,有效地降低系统开发成本。

Patent Agency Ranking