开放领域新词发现的方法及系统

    公开(公告)号:CN103294664A

    公开(公告)日:2013-09-11

    申请号:CN201310279184.5

    申请日:2013-07-04

    Applicant: 清华大学

    Abstract: 本发明提出一种开放领域新词发现的方法及系统。其中,方法包括:接收待处理语料,并对语料进行格式转换和分词处理,以获得多个文本信息;提取多个文本信息的特征信息;判断多个文本信息中一部分文本信息的相邻的文本信息的组合是否为新词;如果是,则对相邻的文本信息进行新词边界标注;根据标注后的多个文本信息和特征信息估计条件随机场模型的参数;根据估计的条件随机场模型的参数对剩余文本信息进行识别,以获得剩余文本信息的新词。根据本发明实施例的方法,通过对文本信息进行新词边界标注,估计条件随机场模型的参数,并对多个文本信息进行识别以获得多个文本信息中的新词,可以对各种领域的新词进行识别,同时提高了识别的效率。

    垃圾网页的识别方法及系统

    公开(公告)号:CN103064984A

    公开(公告)日:2013-04-24

    申请号:CN201310029963.X

    申请日:2013-01-25

    Abstract: 本发明提出一种垃圾网页的识别方法及系统。其中,方法包括:获取搜索引擎的查询日志并对查询日志进行预处理获得预处理查询日志;从预处理查询日志的多个查询和结果网页中筛选出查询的用户点击率和结果网页的出现次数大于阈值的查询-结果集合;从查询-结果集合中人工筛选提取出多个垃圾网页生成垃圾网页样例集合;根据查询-结果集合和垃圾网页样例集合计算查询-结果集合中每个结果网页的垃圾得分和每个查询的作弊得分;当结果网页的垃圾得分大于阈值则结果网页为垃圾网页,并将结果网页添加到垃圾网页集合中。根据本发明实施例的方法,通过搜索引擎查询日志发现和识别垃圾网页降低了算法复杂度,具有较好的推广性和适应性。

    检测时间及位置可控的激光诱导击穿光谱检测装置

    公开(公告)号:CN102128815B

    公开(公告)日:2012-11-14

    申请号:CN201010569401.0

    申请日:2010-11-26

    Applicant: 清华大学

    Abstract: 检测时间及位置可控的激发诱导击穿光谱检测装置,属于复杂样品内金属元素检测技术,尤其是土壤重金属污染元素检测技术领域,其特征在于,光纤轴向垂直于激光激发光束,对准等离子体火花中心位置,并且,通过一个一维平移台在5mm以下的范围内精确地调节检测位置,还有一个内置激发诱导击穿光谱LIBS的采集控制软件,用于控制检测时间,所采集的光谱具有较高信背比,还具有:工作速度快、样品处理简单、适于检测多种物质以及便于携带的优点。

    一种快速检索方法及系统
    55.
    发明授权

    公开(公告)号:CN101630315B

    公开(公告)日:2011-09-14

    申请号:CN200810116757.1

    申请日:2008-07-16

    Applicant: 清华大学

    Abstract: 本发明涉及一种快速检索方法及系统,该方法包括:收集待检索对象列表及文档;在文档中标注出现在待检索对象列表中的待检索对象;抽取文档中已标注的待检索对象前后各若干个字符信息;将由同一待检索对象抽取的字符信息汇集为一个文档,得到该待检索对象对应的描述文档;根据用户的查询词在所有待检索对象对应的描述文档上检索并给出检索结果,该系统包括待检索信息获取单元、待检索对象标注单元、待检索信息抽取单元、待检索信息整理单元和检索单元。本发明在线下将对应对象列表中对象具有支持和描述信息识别并抽取汇集为一个文档,用户检索时直接将该对象对应的所有信息输出,检索速度快,检索精度高。

    检测时间及位置可控的激光诱导击穿光谱检测装置

    公开(公告)号:CN102128815A

    公开(公告)日:2011-07-20

    申请号:CN201010569401.0

    申请日:2010-11-26

    Applicant: 清华大学

    Abstract: 检测时间及位置可控的激发诱导击穿光谱检测装置,属于复杂样品内金属元素检测技术,尤其是土壤重金属污染元素检测技术领域,其特征在于,光纤轴向垂直于激光激发光束,对准等离子体火花中心位置,并且,通过一个一维平移台在5mm以下的范围内精确地调节检测位置,还有一个内置激发诱导击穿光谱LIBS的采集控制软件,用于控制检测时间,所采集的光谱具有较高信背比,还具有:工作速度快、样品处理简单、适于检测多种物质以及便于携带的优点。

    投放广告的方法及装置
    57.
    发明公开

    公开(公告)号:CN101599160A

    公开(公告)日:2009-12-09

    申请号:CN200910088943.3

    申请日:2009-07-14

    Abstract: 本发明公开了一种投放广告的方法及装置,属于广告领域。所述方法包括:分别建立网页分类体系及广告分类体系,建立所述网页分类体系与所述广告分类体系之间的对应关系;根据所述网页分类体系与所述广告分类体系之间的对应关系,为任一待投放广告的网页查找相关广告,所述相关广告为一至多个;计算查找到的每个相关广告与所述任一待投放广告的网页的相关度,并根据计算出的相关度,为所述任一待投放广告的网页投放相关度满足阈值的相关广告。本发明通过建立广告分类体系与网页分类体系之间的对应关系,并根据该对应关系,为任一待投放广告的网页查找并投放相关度满足阈值的相关广告,具有使投放的广告更具目标性及相关性,实现吸引用户点击的效果。

    一种获取同义词的方法及装置

    公开(公告)号:CN101576916A

    公开(公告)日:2009-11-11

    申请号:CN200910087076.1

    申请日:2009-06-18

    Abstract: 本发明公开了一种获取同义词的方法及装置,属于计算机领域。所述方法包括:创建词与结果地址的匹配对的集合;将所述集合中的每个词作为待查找的词,根据所述待查找的词,从所述集合中查找匹配的结果地址;根据所述结果地址,从所述集合中查找与所述结果地址匹配的词,将所述查找到的词作为同义词。所述装置包括:创建模块、第一查找模块和第二查找模块。本发明能够更容易获取同义词,减少人力、物力资源以及提高算法效率。

    一种网络关键资源页面的自动定位方法

    公开(公告)号:CN100507918C

    公开(公告)日:2009-07-01

    申请号:CN200710098531.9

    申请日:2007-04-20

    Applicant: 清华大学

    Abstract: 一种网络关键资源页面的自动定位方法,属于互联网信息处理领域,其特征在于:它首先从多家搜索引擎用户查询点击信息记录中筛选出具有时效性和代表性的查询主题词,提取出其对应的用户点击结果页面和结果页面的“用户点击率”,得到查询主题集合、关键资源页面候选集和“用户点击分布”;随后对多家搜索引擎的用户查询点击信息记录上得到的“用户点击分布”进行融合,利用“查询可信度”信息得到融合后的“用户点击分布”;最后根据融合后的“用户点击分布”对关键资源页面候选集中的页面进行判定,得到主题相关的关键资源页面。该方法具有计算机自动,准确客观和迅速定位的优点。

    一种搜索引擎性能评价的自动化处理方法

    公开(公告)号:CN100440224C

    公开(公告)日:2008-12-03

    申请号:CN200610144289.X

    申请日:2006-12-01

    Applicant: 清华大学

    Abstract: 本发明属于互联网信息处理领域,其特征在于:它首先从搜索引擎用户访问日志中提取出用户的查询信息,在此基础上对用户查询进行分类;随后,对于不同类型的用户查询,根据用户访问日志中的用户点击信息进行自动分析,得出对应这些查询的用户点击焦点;最后对待评价搜索引擎的查询结果进行抓取,并根据用户查询的对应点击焦点对查询结果进行评价,得到搜索引擎性能的数值评价结果。它具有不需要人工参与,准确客观和快捷及时的优点。

Patent Agency Ranking