-
公开(公告)号:CN103377239B
公开(公告)日:2020-08-07
申请号:CN201210126862.X
申请日:2012-04-26
申请人: 深圳市世纪光速信息技术有限公司
IPC分类号: G06F40/30 , G06F40/247 , G06F16/35
摘要: 本发明实施例公开了一种计算文本间相似度的方法和装置,涉及计算机文本信息处理领域,能够提高文本间语义相似度计算的准确性。本发明实施例的计算文本间相似度的方法,包括:根据归一化模板对待分析的第一文本和第二文本进行归一化处理,以使意义相同的词语或词组统一为同一个词语或词组;查询归一化后的所述第一文本和第二文本位于同一个近义词聚类中的近义词,并获取所述近义词的语义相似度;获取所述第一文本和第二文本中各个词语或词组的权重;根据所述近义词的语义相似度、所述权重和预设的语义相似度模型,计算所述第一文本和第二文本的相似度。
-
公开(公告)号:CN103678300B
公开(公告)日:2020-02-07
申请号:CN201210315470.8
申请日:2012-08-30
申请人: 深圳市世纪光速信息技术有限公司
IPC分类号: G06F16/50
摘要: 本发明涉及一种图片转换方法及装置,该图片转换方法包括步骤:确定待转换图片的冗余部分;对待转换图片的冗余部分进行裁减,得到裁减后图片;以及对裁减后的图片进行图片缩略,得到转换后的图片。本发明还涉及一种图片转换装置。本发明的图片转换方法及装置对原图片的冗余部分进行判断且对原图片的冗余部分进行裁减,解决了使用现有的图片转换方法及装置转换后的图片中的文字内容可能不清晰的技术问题。
-
公开(公告)号:CN103108012B
公开(公告)日:2019-11-19
申请号:CN201110362027.1
申请日:2011-11-15
申请人: 深圳市世纪光速信息技术有限公司
发明人: 肖镜辉
摘要: 本发明涉及一种用户词库同步方法,其包括:在至少一个存储空间内存储第一云端用户词库;所述方法还包括:步骤一:对第一云端用户词库进行过滤或者扩展操作得到中间结果;以及步骤二:将中间结果保存至一个存储空间内的一个第二云端用户词库。上述同步方法既可以满足用户词库在不同设备端上的共性需求,又可以使用户词库针对不同的设备类型或者应用环境作优化。另外,本发明还提供一种用户词库同步服务器。
-
公开(公告)号:CN103838764B
公开(公告)日:2019-04-30
申请号:CN201210486725.7
申请日:2012-11-26
申请人: 深圳市世纪光速信息技术有限公司
IPC分类号: G06F16/953
摘要: 本发明涉及一种搜索结果相关性评测方法及装置,该搜索结果相关性评测方法包括:设定搜索结果的标准对象、评测对象和评测关键词;根据评测关键词获得标准对象、评测对象的搜索结果;根据标准对象、评测对象的搜索结果计算评测对象与标准对象间的相关性差异度。本发明实施例的搜索结果相关性评测方法及装置实现了由机器对于不同环境对象间搜索结果进行差异度的监控,评测准确以及能配置各种对象、对不同情况进行评测。
-
公开(公告)号:CN103581347B
公开(公告)日:2019-03-26
申请号:CN201210256109.2
申请日:2012-07-23
申请人: 深圳市世纪光速信息技术有限公司
IPC分类号: H04L29/12
摘要: 本发明实施例公开了一种泛滥子域的识别方法和系统,涉及计算机技术领域,应用于搜索引擎,根据子域名的任一有效片段组的片段长度的离散度或集中度来识别泛滥子域,可有效提高泛滥子域识别程度。本发明实施例提供的方法包括:收集具有相同主域名的子域名;若判断所述具有相同主域名的子域名的任一有效片段组的片段长度为离散分布或集中分布,则将所述任一有效片段组对应的子域名识别为泛滥子域,其中,所述有效片段组为:在所述具有相同主域名的子域名的同一级片段中,所述同一级片段的左侧域名部分和右侧域名部分分别相同的片段集合。
-
公开(公告)号:CN103634160B
公开(公告)日:2018-10-19
申请号:CN201210309991.2
申请日:2012-08-28
申请人: 深圳市世纪光速信息技术有限公司
摘要: 本发明提供一种基于web的通用互联网产品数据对比测试的方法,所述方法包括:获得由web端输入的待测试数据集;接收提交测试请求的指令;分别发送所述待测试数据集至第一服务器及第二服务器进行测试;获取并存储由所述第一服务器得出的第一测试结果以及由所述第二服务器得出的第二测试结果;分析所述第一测试结果与所述第二测试结果并生成分析结果;发送并展示所述分析结果至web端。本发明所提供的基于web的通用互联网产品数据对比测试的方法可以实现端到端的系统测试,对批量的待测数据集可以进行快速的测试,可以快速发现和总结同一系统两个服务器之间的差异,进行结果对比及分析,减少耗时,方便易用,节省人力。
-
公开(公告)号:CN103176970B
公开(公告)日:2018-05-29
申请号:CN201110429044.2
申请日:2011-12-20
申请人: 深圳市世纪光速信息技术有限公司
IPC分类号: G06F17/30
摘要: 本发明公开了一种检索方法及检索系统。该方法包括:解析来自客户端的检索请求包,获取包头内容以及包体内容,所述包头内容为所述客户端根据预先协商的校验策略生成的校验值,所述包体内容为所述客户端根据预先设置的适配文件定义的序列化的数据结构,对用户输入的检索字段对应的键值进行序列化的数据结构处理得到的;根据所述校验策略,重新生成校验值,如果重新生成的校验值与包头内容中携带的校验值是否相同;确定重新生成的校验值与包头内容中携带的校验值相同,将包体内容与所述定义的序列化的数据结构进行匹配,获取匹配成功的检索字段对应的键值并进行检索。应用本发明,可以提高检索的效率。
-
公开(公告)号:CN103473036B
公开(公告)日:2018-04-27
申请号:CN201210188769.1
申请日:2012-06-08
申请人: 深圳市世纪光速信息技术有限公司
发明人: 肖镜辉
摘要: 本发明适用于计算机技术领域,提供了一种输入法皮肤推送方法及系统,包括下述步骤:获取用户在预设时间周期内通过输入法输入的词语以及每个词语对应的词频信息,计算每个词语属于每一个预设感情分类的倾向,计算获取的词语属于同一预设感情分类的倾向,获取获取的词语属于同一预设感情分类的倾向中的最大值,确定最大值对应的感情分类,获取最大值对应的感情分类关联的输入法皮肤,向用户推送输入法皮肤。本发明仅需根据预设时间周期内用户输入的词语以及词频信息,采用基于概率的计算方法即可实现用户的感情分类,从而在保护用户隐私的同时,简化了输入法皮肤推送的复杂性。
-
公开(公告)号:CN103294671B
公开(公告)日:2018-04-27
申请号:CN201210040694.2
申请日:2012-02-22
申请人: 深圳市世纪光速信息技术有限公司
IPC分类号: G06F17/30
摘要: 本发明实施例提供一种文档的检测方法及系统,涉及互联网数据处理技术领域,解决了现有的近似重复文档检测方法在查准率和查全率方面都不能达到较高要求的问题。本发明实施例中,采用了多特征指纹查询与文档相似度比较相结合的方法,由于多个特征指纹能准确地反应出待测网页文档与其它网页文档相区别的特征,且根据已有数据库中特征指纹与近似重复文档的对应关系能快速查询符合条件的记录,因此可提高近似重复文档检测的准确率和效率。通过采用文档相似度检测方法,能防止因数据库不完善造成的待测网页文档确实属于近似重复文档却不能被多特征指纹查询检测出来的情况发生,从而提高了近似重复文档检测的查全率。
-
公开(公告)号:CN103246678B
公开(公告)日:2018-04-27
申请号:CN201210031384.4
申请日:2012-02-13
申请人: 深圳市世纪光速信息技术有限公司
发明人: 姚静
IPC分类号: G06F17/30
摘要: 本发明公开了一种网页内容预览方法和装置,该方法包括:服务器接收终端发送的网页预览指令,所述网页预览指令中携带有目标网页的标识;所述服务器根据所述目标网页的标识获取目标网页的截图;所述服务器将所述截图发送给所述终端,以供所述终端显示所述截图的缩略图,并根据用户在所述缩略图中选择的位置,截取所述截图中与选择的位置对应的网页区域进行显示。采用本发明提供的方法,可以降低网页浏览过程中对网络资源的占用。
-
-
-
-
-
-
-
-
-