私はターム化しターム周波数変換を適用した文章のセットを持っています。スパークターム頻度変換
int numFeatures = 9000;
hashingTF = new HashingTF().setInputCol("filtered").setOutputCol("features")
.setNumFeatures(numFeatures);
DataFrame rawFeaturizedData = hashingTF.transform(stopWordsRemoved);
rawFeaturizedData.show();
Iは、データフレームを印刷するとき、私は「機能」欄
(9000,[2010,2113,2599,3807,5109,5849],[1.0,1.0,1.0,1.0,1.0,1.0])
9000については、以下のような値を参照しては、用語頻度計算に設定された機能の数です。テキスト変換を適用した後に8000のユニークワードがあるため、これを9000に設定しました(除外単語の除外、除名など)
[2010,2113,2599,3807,5109,5849] - これは、テキストの各単語(機能)
[1.0,1.0,1.0,1.0,1.0,1.0]とは何ですか? - 定義により、単語頻度は単語のハッシングを行い、各単語の重みを計算します。これは重みですか?なぜそれは常に1.0として表示されますか?