• MultiStringIndexer训练
    • 功能介绍
    • 参数说明
    • 脚本示例
      • 脚本代码
      • 脚本运行结果

    MultiStringIndexer训练

    功能介绍

    MultiStringIndexer训练组件的作用是训练一个模型用于将多列字符串映射为整数。

    参数说明

    名称 中文名称 描述 类型 是否必须? 默认值
    selectedCols 选择的列名 计算列对应的列名列表 String[]
    stringOrderType Token排序方法 Token排序方法 String “random”

    脚本示例

    脚本代码

    1. data = np.array([
    2. ["football"],
    3. ["football"],
    4. ["football"],
    5. ["basketball"],
    6. ["basketball"],
    7. ["tennis"],
    8. ])
    9. df_data = pd.DataFrame({
    10. "f0": data[:, 0],
    11. })
    12. data = dataframeToOperator(df_data, schemaStr='f0 string', op_type="batch")
    13. stringindexer = MultiStringIndexerTrainBatchOp() \
    14. .setSelectedCols(["f0"]) \
    15. .setStringOrderType("frequency_asc")
    16. model = stringindexer.linkFrom(data)
    17. model.print()

    脚本运行结果

    模型表:

    1. column_index token token_index
    2. 0 -1 {"selectedCols":"[\"f0\"]","selectedColTypes":... NaN
    3. 1 0 tennis 0.0
    4. 2 0 basketball 1.0
    5. 3 0 football 2.0