2017-10-02 7 views
0

列車データとテストデータの両方に52の特徴があり、同じ次元を持っています。特徴を抽出するのは同じです。プログラムに構文エラーはありません。私が負のサンプルのランダムサンプリングを追加したとき、エラーが発生しました。 私に助けてくれてありがとう

+2

申し訳ありませんが、これはひどい問題です、私は別の詳細を約束します。 – Jww

答えて

0

パイプラインでベクトルインデクサーを使用していて、maxcategories引数を指定していない可能性があります。だから、あなたがPysaprkである場合、それは

featureIndexer =\ 
    VectorIndexer(inputCol="features", outputCol="indexedFeatures", maxCategories=2) 

ようになります問題は、あなたのいずれかの列が連続変数であるかもしれないということで、インデクサは、カテゴリとしてそれを取りました。また、データはカテゴリに分類されていましたが、インデクサーはトレーニングデータのすべてのカテゴリを表示しませんでした。

maxcategoriesのデフォルト値は20です。ここをクリックしてくださいhttps://spark.apache.org/docs/2.1.0/api/python/pyspark.ml.html#pyspark.ml.feature.VectorIndexer

+0

ありがとう、私は無視されたいくつかの詳細があります。 – Jww