• StringIndexer预测
    • 功能介绍
    • 参数说明
    • 脚本示例
      • 脚本代码
      • 脚本运行结果

    StringIndexer预测

    功能介绍

    基于StringIndexer模型,将一列字符串映射为整数。

    参数说明

    名称 中文名称 描述 类型 是否必须? 默认值
    handleInvalid 未知token处理策略 未知token处理策略。”keep”表示用最大id加1代替, “skip”表示补null, “error”表示抛异常 String “keep”
    selectedCol 选中的列名 计算列对应的列名 String
    reservedCols 算法保留列名 算法保留列 String[] null
    outputCol 输出结果列 输出结果列列名,可选,默认null String null

    脚本示例

    脚本代码

    1. data = np.array([
    2. ["football"],
    3. ["football"],
    4. ["football"],
    5. ["basketball"],
    6. ["basketball"],
    7. ["tennis"],
    8. ])
    9. df_data = pd.DataFrame({
    10. "f0": data[:, 0],
    11. })
    12. data = dataframeToOperator(df_data, schemaStr='f0 string', op_type="batch")
    13. stringindexer = StringIndexerTrainBatchOp() \
    14. .setSelectedCol("f0") \
    15. .setStringOrderType("frequency_asc")
    16. predictor = StringIndexerPredictBatchOp().setSelectedCol("f0").setOutputCol("f0_indexed")
    17. model = stringindexer.linkFrom(data)
    18. predictor.linkFrom(model, data).print()

    脚本运行结果

    1. f0 f0_indexed
    2. 0 football 2
    3. 1 football 2
    4. 2 football 2
    5. 3 basketball 1
    6. 4 basketball 1
    7. 5 tennis 0