用于获取数据的方法和装置

    公开(公告)号:CN108170843B

    公开(公告)日:2019-07-12

    申请号:CN201810044267.9

    申请日:2018-01-17

    IPC分类号: G06F16/9535

    摘要: 本申请实施例公开了用于获取数据的方法和装置。该方法的一具体实施方式包括:从种子信息集合中依次选取目标种子信息;对于所依次选取的每一个目标种子信息,基于该目标种子信息是否带有用于指示优先处理的优先标识,将该目标种子信息归入优先目标种子信息队列或常规目标种子信息队列;依次从该优先目标种子信息队列的目标种子信息、该常规目标种子信息队列的目标种子信息中提取链接,获取所提取的链接对应的网页数据。该实施方式提高了数据获取的灵活性。

    生成事件组演化图的方法和装置

    公开(公告)号:CN104899908B

    公开(公告)日:2018-09-11

    申请号:CN201510325179.2

    申请日:2015-06-12

    IPC分类号: G06T11/20

    摘要: 本发明实施例提供一种生成事件组演化图的方法和装置。所述方法包括:获取多个事件演化图,所述事件演化图指示事件被关注的热度随时间演化的状态;根据所述多个事件的时间区间以及相应的事件被关注的热度,依次标注所述多个事件在合并候选区域中的绘制位置;根据标注的绘制位置,分别将所述多个事件演化图复制到所述合并候选区域中,以生成事件组演化图。在为任一事件的事件演化图确定其在合并的绘制区域中的位置时,无需考虑其他全部事件的布局,而仅需根据已进行标注的时间点对应的纵向高度来确定其纵向绘制位置,从而降低了对事件演化图进行布局的时间复杂度,可将所述时间复杂度从通常的O(nlgn)降到O(n)。

    用于提取组织机构的简称的方法和装置

    公开(公告)号:CN108228567A

    公开(公告)日:2018-06-29

    申请号:CN201810045722.7

    申请日:2018-01-17

    IPC分类号: G06F17/27

    摘要: 本申请实施例公开了用于提取组织机构的简称的方法和装置。该方法的一具体实施方式包括:获取目标组织机构的全称;对目标组织机构的全称进行分词,得到目标组织机构的全称的词语序列;生成目标组织机构的全称的词语序列中的词语的特征向量,其中,词语的特征向量用于描述词语所具有的特征;将目标组织机构的全称的词语序列中的词语的特征向量输入至预先训练的简称提取模型,得到目标组织机构的简称,其中,简称提取模型用于提取组织机构的简称。该实施方式利用简称提取模型提取组织机构的简称,提高了所提取出的组织机构的简称的准确度。

    基于微博的事件脉络获取方法和系统

    公开(公告)号:CN104933129B

    公开(公告)日:2019-04-30

    申请号:CN201510324990.9

    申请日:2015-06-12

    IPC分类号: G06F16/951

    摘要: 本发明实施例提供一种基于微博的事件脉络获取方法和系统,所述方法包括:获取统计时间段内针对预定的专题所包含的事件的原创微博及其转发微博的信息;计算事件的原创微博及其转发微博的信息在统计时间段内对应的关于专题的事件热度时间分布;根据统计时间段内专题的事件热度时间分布,从统计时间段内选取多个事件脉络时间节点,及其对应的节点事件构成专题的事件脉络。本发明的技术方案实现利用微博快速、准确的获取预定专题所包含事件的事件脉络。

    信息排序方法、用于生成信息排序模型的方法及装置

    公开(公告)号:CN104899310B

    公开(公告)日:2018-01-19

    申请号:CN201510325823.6

    申请日:2015-06-12

    IPC分类号: G06F17/30 G06F17/27

    摘要: 本发明提供一种信息排序方法、用于生成信息排序模型的方法及装置。所述信息排序方法包括:获取关联的多篇文章;根据预设的主题词集,分别从所述多篇文章提取主题词,所述主题词集包括不同粒度的主题词;分别将从所述多篇文章提取的主题词输入预先训练的信息排序模型,以分别获取所述多篇文章的相关度;根据所述多篇文章的相关度对所述多篇文章进行排序。本发明提供的信息排序方法、用于生成信息排序模型的方法、搜索处理方法及装置,由于所述主题词集包括不同粒度的主题词,即主题集的质量得到了提高,进而改善了从所述多篇文章中提取的关键词的质量,提升排序质量。

    网络数据的展示方法和装置

    公开(公告)号:CN106341265B

    公开(公告)日:2019-11-08

    申请号:CN201610814305.5

    申请日:2016-09-09

    IPC分类号: H04L12/24

    摘要: 本发明实施例公开了一种网络数据的展示方法和装置。所述方法包括:在信息发布平台中,提取与目标事件相关联的用户发布内容,所述用户发布内容包括:至少一个源头发布内容,以及与源头发布内容存在引用关系的扩散传播内容;根据用户发布内容的发布时间,绘制以源头发布内容为起始节点,以扩散传播内容为扩散节点的事件传播路径关系图;在事件传播路径显示界面中展示事件传播路径关系图。本发明的技术方案实现了以用户发布内容为节点,将事件的传播扩散路径与时间信息结合显示,将事件随时间的演化过程可视化进行展示的技术效果,优化了现有的网络数据的可视化展示技术,使用户能够简单、直观以及有效的获取事件内容的传播扩散情况。

    信息排序方法、用于生成信息排序模型的方法及装置

    公开(公告)号:CN104915426B

    公开(公告)日:2019-03-26

    申请号:CN201510325667.3

    申请日:2015-06-12

    IPC分类号: G06F16/9537

    摘要: 本发明提供一种信息排序方法、用于生成信息排序模型的方法及装置。所述信息排序方法包括:获取关联的多篇文章;根据预先训练的地理主题模型分别从所述多篇文章提取相应的与地理位置相关的主题的信息;分别将从所述多篇文章提取的主题的信息输入预先训练的相关度排序模型,以分别获取所述多篇文章的相关度;根据所述多篇文章的相关度对所述多篇文章进行排序。本发明提供的信息排序方法、用于生成信息排序模型的方法及装置,由于在排序过程中考虑了地理位置因素,因此可较为准确地为用户推荐与地域相关的文章。

    为主题文档集生成摘要的方法和装置

    公开(公告)号:CN104915335B

    公开(公告)日:2018-03-16

    申请号:CN201510325632.X

    申请日:2015-06-12

    IPC分类号: G06F17/27

    摘要: 本发明实施例公开了一种为主题文档集生成摘要的方法和装置。所述方法包括:从主题文档集的各篇文章中选取一个和/或多个语句作为候选摘要;根据预设的句法分析算法分别对候选摘要进行切词,并基于切词结果对候选摘要进行评分;将评分所得的值最高的候选摘要作为主题文档集的摘要。采用本发明实施例,可以提高主题文档集的摘要的质量,保证生成的摘要具有较好的可读性。