-
公开(公告)号:CN101715004A
公开(公告)日:2010-05-26
申请号:CN200910237595.1
申请日:2009-11-12
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种面向网络视频的分布式采集方法和系统。所述方法,包括下列步骤:利用预先定制的正则表达式与每一个视频网页的统一资源定位符进行匹配,识别出可能包含视频的网页;从视频网站并行下载所述可能包含视频的网页,分别对下载的所述可能包含视频的网页进行网页结构分析,识别出有效的视频网页的链接地址,并将所述网页结构分析结果合并后存储;根据所述有效的视频网页的链接地址,获取所述有效的视频网页中隐藏的视频的链接地址,并分析所述视频的链接地址以获取真实的视频的链接地址,下载并存储所述真实的视频的链接地址对应的视频。
-
公开(公告)号:CN101625695A
公开(公告)日:2010-01-13
申请号:CN200910091375.2
申请日:2009-08-20
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明涉及Web视频页面的复杂命名实体的抽取方法及系统,方法包括:步骤1,对于Web视频页面集合中的每个Web视频页面,从Web视频页面中抽取有效文本信息,有效文本信息组成视频文本,所有视频文本组成训练集合;步骤2,对Web视频页面进行归类,选择类别,对于每个被选的类别设置引导词,从训练集合中选择同引导词相关并且在类别内均匀分布在类别间集中分布的词为特征词;步骤3,从训练集合中提取出同特征词相关的词为候选复杂命名实体,按候选命名实体相关的特征词同类别的关联度,为各个被选类别从候选命名实体中选择对应的复杂命名实体。本发明能够不需要经过长时间的模型训练而从Web视频页面中提取复杂命名实体。
-
公开(公告)号:CN101715004B
公开(公告)日:2013-01-09
申请号:CN200910237595.1
申请日:2009-11-12
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种面向网络视频的分布式采集方法和系统。所述方法,包括下列步骤:利用预先定制的正则表达式与每一个视频网页的统一资源定位符进行匹配,识别出可能包含视频的网页;从视频网站并行下载所述可能包含视频的网页,分别对下载的所述可能包含视频的网页进行网页结构分析,识别出有效的视频网页的链接地址,并将所述网页结构分析结果合并后存储;根据所述有效的视频网页的链接地址,获取所述有效的视频网页中隐藏的视频的链接地址,并分析所述视频的链接地址以获取真实的视频的链接地址,下载并存储所述真实的视频的链接地址对应的视频。
-
公开(公告)号:CN101625695B
公开(公告)日:2012-07-04
申请号:CN200910091375.2
申请日:2009-08-20
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明涉及Web视频页面的复杂命名实体的抽取方法及系统,方法包括:步骤1,对于Web视频页面集合中的每个Web视频页面,从Web视频页面中抽取有效文本信息,有效文本信息组成视频文本,所有视频文本组成训练集合;步骤2,对Web视频页面进行归类,选择类别,对于每个被选的类别设置引导词,从训练集合中选择同引导词相关并且在类别内均匀分布在类别间集中分布的词为特征词;步骤3,从训练集合中提取出同特征词相关的词为候选复杂命名实体,按候选命名实体相关的特征词同类别的关联度,为各个被选类别从候选命名实体中选择对应的复杂命名实体。本发明能够不需要经过长时间的模型训练而从Web视频页面中提取复杂命名实体。
-
-
-