• 功能介绍
  • 参数说明
  • 脚本示例
    • 脚本
    • 结果

    功能介绍

    全表统计用来计算整表的统计量,包含count, sum, variance等

    参数说明

    名称 中文名称 描述 类型 是否必须? 默认值
    selectedCols 选中的列名数组 计算列对应的列名列表 String[] null

    脚本示例

    脚本

    1. data = np.array([
    2. ["a", 1, 1,2.0, True],
    3. ["c", 1, 2, -3.0, True],
    4. ["a", 2, 2,2.0, False],
    5. ["c", 0, 0, 0.0, False]
    6. ])
    7. df = pd.DataFrame({"f_string": data[:, 0], "f_long": data[:, 1], "f_int": data[:, 2], "f_double": data[:, 3], "f_boolean": data[:, 4]})
    8. source = dataframeToOperator(df, schemaStr='f_string string, f_long long, f_int int, f_double double, f_boolean boolean', op_type='batch')
    9. summarizer = SummarizerBatchOp()\
    10. .setSelectedCols(["f_long", "f_int", "f_double"])
    11. summary = summarizer.linkFrom(source).collectSummary()
    12. print(summary.sum('f_double'))

    结果

    1. 1.0