2017-05-30 26 views
-1

機械学習、Python

異なる製品のSFrameには「レビュー」という列があります。私はすべての単語ではなく、選択された単語の集合のみの出現を数えなければならないword_count列を作成したい。

レビューのすべての単語を含む単語カウントを作成しても、結果の辞書をサブセット化することができます。これにより、辞書のキーとして選択された単語のみを含む辞書の新しい列と、 。例えば

selected_words = [ '良い' '恐ろしい']あれば、結果は= { '良好':1、 '恐ろしい':1}単語数を導出する必要があり、以下に与えられる:で

enter image description here おかげ前進 。

+0

このサイトに掲載するための正しい礼儀をお読みください。 –

+0

[ask]と[MCVE]の詳細をご覧ください。 –

答えて

0

私によれば、肯定的な評価と否定的な評価を区別するための感情的分析が必要です。あなたはすべての良い悪い言葉で列を作成しなければなりません。この問題は、メールをスパムかどうかを区別するのに似ています。モーダルの高い精度を得るためには、ステミングなどの創造的な機能が必要です。多数の機能のためにモデルを訓練しなければなりません。

前処理の場合、複雑さの少ない最適なメソッドを実装したい場合は、各フィーチャーワードのハッシュテーブルを作成し、ハッシュが定義されている場合はそれぞれの単語に対して文とマッチハッシュを実行し、それ以外の場合は増加させます。すべての機能のハッシュ値をテーブルに保存します。すべてのレビューのためにそれをしてください。