私は短い文の列とカテゴリ変数を持つ列を持つスパークデータフレームを持っています。文章でtf-idf
を実行したい場合は、カテゴリ変数のone-hot-encoding
を入力してから、サイズがはるかに小さくなるとドライバのスパース行列に出力します(scikit-learnモデルの場合)。pyspark:スパース行列をscipyスパース行列にする
sparse形式でsparkからデータを取り出す最も良い方法は何ですか?疎ベクトル上にtoArray()
メソッドしかなく、numpy
配列を出力するようです。しかし、ドキュメントではscipyの疎の配列があります。can be used in the place of spark sparse arrays.
tf_idfの値は実際には疎な配列の列であることにも注意してください。理想的には、これらすべての機能を1つの大きなスパース行列にまとめるとよいでしょう。