StringIndexer
を、私のデータセットの1000以上のカテゴリをランク付けする手段として使用して、相対頻度を示すインデックスを生成することを望んでいました。このインデックスをモデルの数値フィーチャとして使用できます。残念ながら、StringIndex
は、デフォルトではインデックスにカテゴリを指定しているメタデータを保存しています。このモデルではインデックスにcategory variableを使用します。StringIndexerを使用して数値変数を生成する方法は?
これを無効にする方法はありますか?そのため、インデックス変数は数値変数として使用できますか?
編集:MLパイプラインのステージとして文字列インデクサーを使用しているため、データフレームを直接操作する必要がありません。また、私はこのパイプラインを保存してロードするので、カスタムデータトランスフォーマーは実用的ではないかもしれません。 Sparkが現在書かれているので、これは不可能だと思う。