一种通用的条款与文档匹配方法

    公开(公告)号:CN111209375A

    公开(公告)日:2020-05-29

    申请号:CN202010031467.8

    申请日:2020-01-13

    Abstract: 本发明公开了一种通用的条款与文档匹配方法,其步骤包括:1)根据条款切割体系对所选每一条款句子进行分词块操作,并对相应词块添加解释词和扩展词,生成针对每一条款的多个查询语句;2)根据条款i的每一查询语句查询收集该条款i的相关文档数据并标注所收集每一文档所对应的条款,获得每一条款i对应的标注数据集;3)对于每一条款i,根据条款i的标注数据集I训练得到该条款i的条款主题模型和条款分类模型;4)对于一待匹配条款的文档材料a,计算该文档材料a与每一条款的条款主题模型相似度和类别分类;5)根据返回的类别概率值和相似度计算各条款的匹配概率值,返回匹配概率最高的条款。本发明解决了条款与文档难以匹配的问题。

    一种基于搜索引擎的主题语料构建方法及系统

    公开(公告)号:CN109933707B

    公开(公告)日:2022-10-14

    申请号:CN201811285020.2

    申请日:2018-10-31

    Abstract: 本发明涉及一种基于搜索引擎的主题语料构建方法及系统。该方法包括以下步骤:1)利用搜索引擎获取主题相关的种子网页;2)对种子网页进行扩展以发现列表页;3)对列表页进行判断,得到与主题真正相关的列表页;4)对与主题真正相关的列表页中的链接进行抽取,并对链接进行下载得到原始网页;5)对原始网页进行正文抽取,形成最终的主题语料。该系统包括:种子网页获取单元、列表页发现单元、列表页审核单元、网页下载单元和正文抽取单元。与现有技术相比,构建同等规模主题语料本发明所需的人工标注量大幅减少,并且对各类主题语料构建都有较好的适用性。

    一种基于序列相似度的车辆轨迹压缩方法

    公开(公告)号:CN110097074B

    公开(公告)日:2021-06-22

    申请号:CN201910207855.4

    申请日:2019-03-19

    Abstract: 本发明公开了一种基于序列相似度的车辆轨迹压缩方法。本方法为:1)将单位时间内同一标识ID的车辆的轨迹合成为一条长轨迹;该长轨迹为TrajectoryID={(l1,t1),(l2,t2),…,(ln,tn)},其中,第n次采集的信息包括位置ln、时间信息tn,记为采集点(ln,tn);2)根据设定的速度阈值对该长轨迹进行切割,得到多条分段轨迹;3)基于分段轨迹之间的序列相似度,对该长轨迹进行全局轨迹压缩。本发明大大节约了存储开销。

    一种网络爬虫伪装数据的生成方法及系统

    公开(公告)号:CN110555146A

    公开(公告)日:2019-12-10

    申请号:CN201810270472.7

    申请日:2018-03-29

    Abstract: 本发明提供一种网络爬虫伪装数据的生成方法,其步骤包括:从浏览器的用户代理useragent字串库中选择一useragent字串,从代理IP资源池中获取一代理IP;利用所述useragent字串和所代理IP访问目标网站,根据cookie获取策略,获取cookie信息并存储于cookie资源池;将所述cookie信息与所述useragent字串、所述代理IP、多个同城代理IP、referer信息关联存储,并打包成伪装数据;根据调度策略将所述伪装数据供外部爬虫程序使用。本发明还提供一种网络爬虫伪装数据的生成系统。

    一种舆情信息中的个性化垃圾信息过滤方法及系统

    公开(公告)号:CN108874852A

    公开(公告)日:2018-11-23

    申请号:CN201810229800.9

    申请日:2018-03-20

    Abstract: 本发明提供一种舆情信息中的个性化垃圾信息过滤方法及系统,该方法的步骤包括:基于通用词库和用户个性化词库,构建内存索引库;对含有舆情信息的原始文档进行分词处理,去除停用词;根据所述内存索引库,对经过上述处理的文档进行识别,识别出垃圾信息和非垃圾信息;将上述非垃圾信息输入到可更新的信息分类模型中,进一步识别出垃圾信息和非垃圾信息;基于通用垃圾识别标注语料和用户个性化垃圾识别标注语料,对所述信息分类模型识别出的非垃圾信息进行垃圾信息和非垃圾信息的标记,生成训练集,用来更新所述信息分类模型。

    一种基于序列相似度的车辆轨迹压缩方法

    公开(公告)号:CN110097074A

    公开(公告)日:2019-08-06

    申请号:CN201910207855.4

    申请日:2019-03-19

    Abstract: 本发明公开了一种基于序列相似度的车辆轨迹压缩方法。本方法为:1)将单位时间内同一标识ID的车辆的轨迹合成为一条长轨迹;该长轨迹为TrajectoryID={(l1,t1),(l2,t2),…,(ln,tn)},其中,第n次采集的信息包括位置ln、时间信息tn,记为采集点(ln,tn);2)根据设定的速度阈值对该长轨迹进行切割,得到多条分段轨迹;3)基于分段轨迹之间的序列相似度,对该长轨迹进行全局轨迹压缩。本发明大大节约了存储开销。

    一种基于搜索引擎的主题语料构建方法及系统

    公开(公告)号:CN109933707A

    公开(公告)日:2019-06-25

    申请号:CN201811285020.2

    申请日:2018-10-31

    Abstract: 本发明涉及一种基于搜索引擎的主题语料构建方法及系统。该方法包括以下步骤:1)利用搜索引擎获取主题相关的种子网页;2)对种子网页进行扩展以发现列表页;3)对列表页进行判断,得到与主题真正相关的列表页;4)对与主题真正相关的列表页中的链接进行抽取,并对链接进行下载得到原始网页;5)对原始网页进行正文抽取,形成最终的主题语料。该系统包括:种子网页获取单元、列表页发现单元、列表页审核单元、网页下载单元和正文抽取单元。与现有技术相比,构建同等规模主题语料本发明所需的人工标注量大幅减少,并且对各类主题语料构建都有较好的适用性。

    一种面向用户个人文件的聚类方法及系统

    公开(公告)号:CN108399213A

    公开(公告)日:2018-08-14

    申请号:CN201810112624.0

    申请日:2018-02-05

    Abstract: 本发明提供一种面向用户个人文件的聚类方法,步骤包括:利用用户对相似文件的保存习惯对用户文件进行分组,得到多个文件组;对文件组内的文件进行聚类,得到一个或多个局部簇,每个局部簇内的文件内容相似;将每个局部簇视为一个文件,对所有局部簇进行聚类,生成全局簇。本发明还提供一种面向用户个人文件的聚类系统,包括聚类计算单元、聚类结果存储单元和聚类结果查找单元,其中聚类计算单元包括批量文件聚类计算单元和增量文件聚类计算单元。

    一种元搜索列表结果抽取方法及系统

    公开(公告)号:CN109948015B

    公开(公告)日:2023-10-03

    申请号:CN201710880652.2

    申请日:2017-09-26

    Abstract: 本发明提供一种元搜索列表结果抽取方法,步骤包括:获取元搜索检索结果的网页源代码;对所述网页源代码基于XPATH解析,确定检索结果区域和扩展区域的XPATH路径,抽取列表项信息和扩展信息;如果基于XPATH解析失败,则对所述网页源代码基于统计信息规则提取列表项信息,并基于启发式规则提取扩展信息;将所述抽取的列表项信息和扩展信息作为抽取结果进行封装,组成用于元搜索的数据结构。本发明还提供一种元搜索列表结果抽取系统。

    一种通用的条款与文档匹配方法

    公开(公告)号:CN111209375B

    公开(公告)日:2023-01-17

    申请号:CN202010031467.8

    申请日:2020-01-13

    Abstract: 本发明公开了一种通用的条款与文档匹配方法,其步骤包括:1)根据条款切割体系对所选每一条款句子进行分词块操作,并对相应词块添加解释词和扩展词,生成针对每一条款的多个查询语句;2)根据条款i的每一查询语句查询收集该条款i的相关文档数据并标注所收集每一文档所对应的条款,获得每一条款i对应的标注数据集;3)对于每一条款i,根据条款i的标注数据集I训练得到该条款i的条款主题模型和条款分类模型;4)对于一待匹配条款的文档材料a,计算该文档材料a与每一条款的条款主题模型相似度和类别分类;5)根据返回的类别概率值和相似度计算各条款的匹配概率值,返回匹配概率最高的条款。本发明解决了条款与文档难以匹配的问题。

Patent Agency Ranking