0
NLPのbag-of-wordsモデルに基づいて分類しようとしています。電車と試験のための言葉の袋を標準化するには?
- (句読点などの単語の除去、小文字、ステミングを停止)
- 列車用TF-IDF行列を作成NLTKを使用して列データの前処理を行いました。
- テストの前処理を行いました。
- テストデータ用に作成されたtf-idfマトリックス。
- 列車と試験データには単語の袋が異なるため、機能の数が異なるため、knnのような分類アルゴリズムは使用できません。
- 私は列車とテストデータを併合し、tf-idfマトリックスを作成しました。これは、単語の異なるバッグの上記の問題を解決しました。しかし結果の行列は大きすぎて処理できませんでした。
ここに私の質問は以下のとおりです。
- 電車やテストのための言葉の正確なバッグを作成する方法はありますか?
- 列車を追加してテストするのが適切でない場合は、LDAのような次元削減アルゴリズムを実行する必要がありますか?
ここをクリック[CountVectorizer](http://scikit-learn.org/stable/modules/gener) ated/sklearn.feature_extraction.text.CountVectorizer.html) – sera