私はPyFarkデータフレーム内のすべてのString
型変数をカテゴリ変数に変換した後、データフレーム上で決定木を実行できます。私はパンダを使うことができず、リソースの制約のためにPySparkライブラリしか使用できません。私は可能な解決策としてVectorIndexer
を識別しましたが、と言うことができるすべてのString
タイプの列をどのように変換するのか分かりません。pyspark内のすべての公称変数をカテゴリ変数に変換する
誰かがそれを行う方法の構文を教えてくれますか?
featureIndexer = VectorIndexer(inputCol=<list of input columns>, outputCol=<list of output columns>, maxCategories=10).fit(df)
またはドキュメントがそれを行うことができることを示しているように見えるものは、それ自身にベクタ必要が出VectorIndexer
姿を、させる:私はこのような何かの後です。
featureIndexer = VectorIndexer(df, maxCategories=10).fit(df)
ありがとうございます。
すみません、ありがとうございました。私はあまりにもそれを台無しにしました。また、どのようにすべての列を変換することができますか? inputCol引数に列名をリストとして渡そうとしましたが、エラーが発生しました。その理由は、変換が必要な50個の奇数列の列があり、すべてを手作業で行う必要がないからです。どうもありがとう! –
@ words_of_wisdomパイプラインを使って一度に複数の列を変換する[this](https://stackoverflow.com/a/36944716/7579547)答えを見ることができます。 – Shaido