数据工程的去重节点可以对数据表中的重复数据进行删除,仅保留一条数据参与数据计算。
一个数据工厂数据流最多可使用 10 个去重节点进行去重计算。
当需要对订单金额进行统计而表单中含有子表单时,主表数据中的总金额就会被重复记录,通过「去重」节点,按照订单编号进行去重处理,即可得到每条订单对应的唯一一条总金额数据,多余的数据则自动删除。如下图所示:
在应用管理后台的 数据工厂 处,点击「新建数据流」。如下图所示:
点击输入节点,选择需要进行去重统计的数据源表单及具体需要参与分析的字段:
1)添加去重节点
从左侧的数据处理节点选择「去重」节点添加至设计面板中,将选择的数据源表单连向「去重」节点。如下图所示:
2)设置去重字段
添加去重字段,去重字段即去重的依据,支持添加多个去重字段。多个去重字段的关系为「且」,即必须同时满足多个字段完全重复方进行去重处理。
例如,根据订单编号去重,相同订单编号的数据仅保留一条,便于后续对订单总金额进行计算。
可以看到原本 7 条数据,根据订单编号去掉重复数据后,仅剩 3 条数据。
1)去重逻辑默认保留第一条数据。
2)若在已进行去重操作的数据中加入新数据,保留的数据可能发生改变。