基于Clickhouse的人群圈选方法及装置

    公开(公告)号:CN112396462B

    公开(公告)日:2022-11-22

    申请号:CN202011347988.0

    申请日:2020-11-26

    摘要: 本发明公开一种基于Clickhouse的人群圈选方法及装置,涉及大数据技术领域,能够满足业务方对人群包快速、高效的计算性能要求。该方法包括:配置标签信息创建spark任务,将标签的原表数据根据配置的信息项导入Clickhouse引擎中的CH表;基于标签值的特征类型,将CH表拆分为多种类型的聚合表;获取用户的查询标签生成sql查询条件,并转换为Clickhouse查询语句;采用多线程方式并行执行Clickhouse查询语句,从对应类型的聚合表中获取查询明细数据存储于Hive表中,得到人群圈选查询结果。该装置应用有上述方案所提的方法。

    一种目标人群圈选方法、装置及计算机设备

    公开(公告)号:CN110648185B

    公开(公告)日:2020-02-18

    申请号:CN201911186757.3

    申请日:2019-11-28

    IPC分类号: G06F16/30

    摘要: 本发明公开了一种目标人群圈选方法、装置及计算机设备,属于互联网技术领域。方法包括:获取用户实时行为数据,对用户实时行为数据进行解析得到用户实时标签数据,并按照预设的位图数据结构生成用户实时标签位图;根据用户实时标签位图和预先构建的用户历史标签位图数据库,生成用户全量标签位图数据库,并构建差异点数据;对差异点数据与预设的人群条件位图库中对应的人群条件位图进行按位运算,根据运算结果,确定人群条件位图中的位数值为预设值的位位置;在预设的条件森林库中确定位数值为预设值的位位置预先映射的条件树,并基于条件树与用户全量标签位图数据库,圈选出目标人群。本发明实施例能够实现高效实时地圈选出符合条件的人群包。

    一种数据排序方法、装置及系统

    公开(公告)号:CN112612614B

    公开(公告)日:2024-07-26

    申请号:CN202011579026.8

    申请日:2020-12-28

    IPC分类号: G06F9/50

    摘要: 本发明公开了一种数据排序方法、装置及系统,属于大数据处理技术领域。方法包括:将接收到的待处理数据分成至少两个第一数据块;对各第一数据块抽样,获得各第一数据块对应的抽样数据;根据各第一数据块的数据量计算其对应的抽样数据的权重值;基于各抽样数据的权重值在抽样数据中确定用于划分待处理数据以生成至少两个第二数据块的切分点数据;利用切分点数据划分待处理数据,生成第二数据块;对各第二数据块中的数据排序,获得排序结果。本发明通过计算抽样数据的权重确定切分信息对待处理数据进行切分和排序,解决了由于第一数据块中数据量不均衡导致的分组排序分布不均衡的问题。

    一种数据排序方法、装置及系统

    公开(公告)号:CN112612614A

    公开(公告)日:2021-04-06

    申请号:CN202011579026.8

    申请日:2020-12-28

    IPC分类号: G06F9/50

    摘要: 本发明公开了一种数据排序方法、装置及系统,属于大数据处理技术领域。方法包括:将接收到的待处理数据分成至少两个第一数据块;对各第一数据块抽样,获得各第一数据块对应的抽样数据;根据各第一数据块的数据量计算其对应的抽样数据的权重值;基于各抽样数据的权重值在抽样数据中确定用于划分待处理数据以生成至少两个第二数据块的切分点数据;利用切分点数据划分待处理数据,生成第二数据块;对各第二数据块中的数据排序,获得排序结果。本发明通过计算抽样数据的权重确定切分信息对待处理数据进行切分和排序,解决了由于第一数据块中数据量不均衡导致的分组排序分布不均衡的问题。

    基于Clickhouse的人群圈选方法及装置

    公开(公告)号:CN112396462A

    公开(公告)日:2021-02-23

    申请号:CN202011347988.0

    申请日:2020-11-26

    摘要: 本发明公开一种基于Clickhouse的人群圈选方法及装置,涉及大数据技术领域,能够满足业务方对人群包快速、高效的计算性能要求。该方法包括:配置标签信息创建spark任务,将标签的原表数据根据配置的信息项导入Clickhouse引擎中的CH表;基于标签值的特征类型,将CH表拆分为多种类型的聚合表;获取用户的查询标签生成sql查询条件,并转换为Clickhouse查询语句;采用多线程方式并行执行Clickhouse查询语句,从对应类型的聚合表中获取查询明细数据存储于Hive表中,得到人群圈选查询结果。该装置应用有上述方案所提的方法。

    一种目标人群圈选方法、装置及计算机设备

    公开(公告)号:CN110648185A

    公开(公告)日:2020-01-03

    申请号:CN201911186757.3

    申请日:2019-11-28

    IPC分类号: G06Q30/02

    摘要: 本发明公开了一种目标人群圈选方法、装置及计算机设备,属于互联网技术领域。方法包括:获取用户实时行为数据,对用户实时行为数据进行解析得到用户实时标签数据,并按照预设的位图数据结构生成用户实时标签位图;根据用户实时标签位图和预先构建的用户历史标签位图数据库,生成用户全量标签位图数据库,并构建差异点数据;对差异点数据与预设的人群条件位图库中对应的人群条件位图进行按位运算,根据运算结果,确定人群条件位图中的位数值为预设值的位位置;在预设的条件森林库中确定位数值为预设值的位位置预先映射的条件树,并基于条件树与用户全量标签位图数据库,圈选出目标人群。本发明实施例能够实现高效实时地圈选出符合条件的人群包。