去重

1. 简介

1.1 功能简介

数据工程的去重节点可以对数据表中的重复数据进行删除,仅保留一条数据参与数据计算。

一个数据工厂数据流最多可使用 10 个去重节点进行去重计算。

1.2 使用场景

  • 当数据源含子表数据时,主表数据在数据流中就会被重复记录,若想准确地统计主表数据,可以通过去重节点删除重复数据行再计算。
  • 因为业务需要,导致同一份数据需要维护多份。如,同一客户数据,可能存在多条,在统计客户数据时如果不去重处理就会导致重复计算。

1.3 预期效果

当需要对订单金额进行统计而表单中含有子表单时,主表数据中的总金额就会被重复记录,通过「去重」节点,按照订单编号进行去重处理,即可得到每条订单对应的唯一一条总金额数据,多余的数据则自动删除。如下图所示:

2. 设置步骤

2.2 新建数据流

在应用管理后台的 数据工厂 处,点击「新建数据流」。如下图所示:

2.2 选择数据源

点击输入节点,选择需要进行去重统计的数据源表单及具体需要参与分析的字段:

2.3 数据去重

1)添加去重节点

从左侧的数据处理节点选择「去重」节点添加至设计面板中,将选择的数据源表单连向「去重」节点。如下图所示:

2)设置去重字段

添加去重字段,去重字段即去重的依据,支持添加多个去重字段。多个去重字段的关系为「且」,即必须同时满足多个字段完全重复方进行去重处理。

例如,根据订单编号去重,相同订单编号的数据仅保留一条,便于后续对订单总金额进行计算。

2.4 效果演示

可以看到原本 7 条数据,根据订单编号去掉重复数据后,仅剩 3 条数据。

3. 注意事项

1)去重逻辑默认保留第一条数据。

2)若在已进行去重操作的数据中加入新数据,保留的数据可能发生改变。

Copyright(C)2023 HFBangFu Inc. All Rights Reserved 皖ICP备12017563号-5