一种基于高分散哈希算法的数据采集策略方法及装置

    公开(公告)号:CN105208075A

    公开(公告)日:2015-12-30

    申请号:CN201510492674.2

    申请日:2015-08-12

    CPC classification number: H04L67/2842 H04L9/0643

    Abstract: 一种基于高分散哈希算法的数据采集策略方法及装置,该装置包括用户行为采集模块、时间种子生成器、哈希回传时间生成器、时间校正器、定时服务模块、数据传输模块、文件缓存模块、后台接收服务模块;该装置将高分散性哈希算法引入,计算合理的回传时间;数据传输模块及数据加密器等用于将数据进行加密后传输;文件缓存、传输计数器、启动计数器等用于测算数据传输成功率。本发明利用高分散性哈希算法的天然特质,在对实时性要求不高的移动互联网数据采集系统中,有效的将大量的设备发送请求进行了分散疏导,合理的利用服务器的资源情况,将其服务能力平均化,同时也可以将数据回传的延时降到最低,实现系统的均衡、稳定的目标。

    基于语义标签库的多维度内容标注方法

    公开(公告)号:CN102982076B

    公开(公告)日:2015-08-19

    申请号:CN201210424525.9

    申请日:2012-10-30

    Abstract: 本发明公开了一种基于语义标签库的多维度内容标注方法,包括:建立语义标签库;配置可扩展的资源种类;建立多级、可配置的内容标注维度;将资源按照内容特征划分维度,建立多层次的内容维度;建立可配置、可修改的资源种类与内容标注维度的对应关系;进行基于语义标签库的资源内容标注;临时标签处理;基于语义标签库的资源检索;用户输入检索词,系统自动在扩展标签库中进行匹配:如果匹配成功,系统根据对应的标签标注码来检索对应图片;如果匹配不成功,系统可将检索词与资源描述信息进行匹配,同时系统将该检索词存入临时标签库。有效的提高了资源标注的精确度和效率,为资源检索和数据分析奠定了良好的基础。

    一种基于微博平台的事件可视化方法及系统

    公开(公告)号:CN104536956A

    公开(公告)日:2015-04-22

    申请号:CN201410354273.6

    申请日:2014-07-23

    CPC classification number: G06F17/30864 G06F17/30905

    Abstract: 本发明公开了一种基于微博平台的事件可视化方法及系统,本发明涉及信息抽取及可视化技术,该方法包括根据该事件的关键词和时间范围,通过该微博平台的事件搜索接口,检索与该事件相关的该时间范围内的微博;将该微博按照时间进行排序,生成一个微博集合;该微博集合通过聚类算法,生成多个聚类子集;对该多个聚类子集进行关键词抽取,生成多个词云,并将重复出现在该多个词云中的该关键词赋予相同的颜色、位置、旋转方式;通过将每个该聚类子集和与其相对应的该词云进行展示的方式,将该事件进行可视化展示。依托微博平台,通过事件关键词对相关的微博进行采集,可以全面的获取关于某个事件的微博信息。

    结合聚类和街区距离的高维向量搜索方法

    公开(公告)号:CN103514264A

    公开(公告)日:2014-01-15

    申请号:CN201310365384.2

    申请日:2013-08-21

    CPC classification number: G06F17/3002 G06F17/30029

    Abstract: 本发明是结合聚类和街区距离的高维向量搜索方法。在本发明中,提出了一种结合聚类和街区距离的索引结构CBlockB-tree,它首先采用聚类算法对高维向量集进行簇划分,然后为各簇数据构建BlockB-tree,形成CBlockB-tree。该索引结构进行检索时,通过聚类能过滤一部分与查询区域不相交的簇数据,通过高维到一维转换后的key值比较,能进一步减少最终向量相似度匹配的运算量,加快高维向量的搜索速度。同时,该索引结构能够有效支持简单高效的街区距离进行匹配搜索。

    一种电子发行系统及出版物发行方法

    公开(公告)号:CN102842008A

    公开(公告)日:2012-12-26

    申请号:CN201110167247.9

    申请日:2011-06-21

    Inventor: 张晓华

    Abstract: 本发明提供一种电子发行系统,包括:内容处理节点和终端设备,其特征在于,所述电子发行系统还包括版权授权中心和设备证书发放节点;版权授权中心用于生成版权对象文件、为用户签发数字证书和提供相应的私钥以及提供数据库服务;内容处理节点用于使用密钥Key加密出版物以生成内容对象文件;设备证书发放节点用于接收版权授权中心签发的数字证书和相应私钥并将它们烧录到终端设备中;终端设备用于获取内容对象文件和版权对象文件,进而利用终端中的私钥获取密钥Key,将内容对象文件中的出版物解密为明文。本发明还提供了相应的出版物电子发行方法。本发明对发布的信息具有认证过程的加密。本发明能够对加密级别分级,将软、硬件加密相结合,提高加密的安全性和灵活性。

    计算机汉字输入-新华编码方案

    公开(公告)号:CN87104351A

    公开(公告)日:1988-01-13

    申请号:CN87104351

    申请日:1987-06-24

    Inventor: 蒋顺炳

    Abstract: 新华编码方案是计算机汉字输入拼形方案,侧重机关干部、编辑记者等非专职操作人员使用计算机输入汉字而设计的,规则严谨、简单明确,取码符合汉字的特点和人们书写汉字的习惯。键位的字根安排便于联想记忆和查找,容错能力强,错码率低。词组和标点符号使用方便。全部规则为七个字:双排、双分、按笔顺。对应国标GB2312—80基本集及新电报码本中的全部汉字。该方案现已经在新华社国内新闻计算机处理系统中正式使用。

    文本校对方法、装置、设备、介质及程序产品

    公开(公告)号:CN115204166A

    公开(公告)日:2022-10-18

    申请号:CN202210311657.4

    申请日:2022-03-28

    Abstract: 本申请公开了一种文本校对方法、装置、设备、介质及程序产品。该方法包括:对目标文本进行断句分词处理,获得至少一个目标单句、以及与该目标单句对应的初始分词序列;针对目标文本对应的每一个初始分词序列,至少根据两种预设词表校正规则进行校正处理,获得与每一初始分词序列对应的多个候选校正序列;至少根据两种概率模型,计算与各候选校正序列对应的置信值,根据置信值对候选校正序列进行筛选;根据置信值对多个筛选得到的候选校正序列进行融合处理,获得与初始分词序列对应的最优校正序列;根据目标单句在目标文本中的位置,组合各最优校正序列,获得校正文本。根据本申请实施例,本申请对文本进行校对的准确率高。

    一种地震新闻信息抽取方法及其系统

    公开(公告)号:CN113033201A

    公开(公告)日:2021-06-25

    申请号:CN202011231567.1

    申请日:2020-11-06

    Abstract: 本发明提供一种地震新闻信息抽取方法及其系统,方法包括:将实体库中的第一实体链接到新闻文本上,对链接有第一实体的新闻文本识别得到第二实体,并对识别后的新闻文本进行分句,以得到包括新闻原句的第二处理文本;对第二处理文本识别和分词后得到第二数字类社会属性新闻数组,转化得到第二数字类社会属性新闻数组中的阿拉伯数字,将元素、阿拉伯数字和新闻原句输出;根据第二处理文本的时间要素对新闻原句设置时刻信息,对新闻原句识别得到新闻原句中的第三实体和关系动词列表,根据优先级顺序获取关系动词列表中的关系动词,并将第三实体、关系动词、时刻信息和新闻原句输出。本发明的有益效果:实现了基于时间线形成全面的新闻事件脉络。

    基于注意力机制的事件抽取方法及系统

    公开(公告)号:CN112307761A

    公开(公告)日:2021-02-02

    申请号:CN202011301062.8

    申请日:2020-11-19

    Abstract: 本发明公开一种基于注意力机制的事件抽取方法及系统,其中抽取方法包括以下步骤:获取待处理文本及其事件类型,提取所述待处理文本中各字的向量,获得文本向量数据,提取所述事件类型中各字的向量,生成事件类型向量数据;将所述文本向量数据和所述事件类型向量数据输入预先构建的抽取词预测模型,获得所述待处理文本中每个字所对应的标签所形成的标签序列;基于所述标签序列对所述待处理文本进行事件抽取,获得相应的事件触发词和事件论元。本发明中通过引入事件类型,结合事件类型对应的特征数据对事件触发词和事件论元进行联合抽取,有效提升事件抽取的准召率。

Patent Agency Ranking