org.apache.spark.SparkException：ユーザ定義関数（$ anonfun $ 11：（vector）=> vector）の実行に失敗しました

列車データとテストデータの両方に52の特徴があり、同じ次元を持っています。特徴を抽出するのは同じです。プログラムに構文エラーはありません。私が負のサンプルのランダムサンプリングを追加したとき、エラーが発生しました。私に助けてくれてありがとう

2017-10-02 Jww

申し訳ありませんが、これはひどい問題です、私は別の詳細を約束します。 – Jww

パイプラインでベクトルインデクサーを使用していて、maxcategories引数を指定していない可能性があります。だから、あなたがPysaprkである場合、それは

featureIndexer =\ 
    VectorIndexer(inputCol="features", outputCol="indexedFeatures", maxCategories=2)

ようになります問題は、あなたのいずれかの列が連続変数であるかもしれないということで、インデクサは、カテゴリとしてそれを取りました。また、データはカテゴリに分類されていましたが、インデクサーはトレーニングデータのすべてのカテゴリを表示しませんでした。

2017-10-05 00:08:44

ありがとう、私は無視されたいくつかの詳細があります。 – Jww

答えて