2011-01-13 2 views
0

私はそのモジュールに約200文字の長さの文字列を与えることができる何らかの種類のモジュール(好ましくはPython用)を探しています。モジュールは、文字列に含まれていた正または負の単語の数を返します。肯定的または否定的な単語のテキストを分析するにはどうすればよいですか?

私は実際に自然言語処理で車輪を再創造することを避けたいと思っています。あなたが知っていることがあれば教えてください。私が上で説明したことをするなら、共有することができれば時間を節約することができます。

ありがとうございました!

答えて

1

テキストを分析する前に、句読点をストライピングし、言語を修復し、スペースを分割し、テキスト全体を下げて、繰り返し可能なデータ構造に格納することで、特定のテキストを前処理する必要があります。いくつかの基本的な感情分析のため

、以下の技術を使用することができる:言葉のテクニックの袋に言葉

バッグ私たちは基本的に言葉のバッグ(ファイル)を通過し、反復可能にすることによって作られたかどうかを確認私たちはこれらを含んでいます。そうであれば、テキストの全センチメントを評価するために、各単語の存在にある値を割り当てます。 このリンクを使用して、要素をタグ付けして、不要なデータを削除することによって入力テキストから抽出することができ、この https://en.wikipedia.org/wiki/Bag-of-words_model

キーワード抽出と

キーワードをタグ付けし、重要な情報についての詳細を理解するのに役立つはずです。 例: 私の名前はJohnです。 ここでJohn、名前は情報であり、 "is"は本当に必要ではありません。 同様に、主な情報のみを保持するために、動詞や他の重要でないものを削除することができます。 ChunkingとChinkingが役に立ちます。 このリンクは役立つ必要があります。 http://nltk.org/book/ch07.html

関連する問題