2016-01-11 19 views
7

私は今、gensimのword2vecライブラリを使用してword2vecをしばらく試しています。私の質問は、入力テキストからストップワードを削除する必要がありますか?私の最初の実験結果に基づいて、私はmodel.most_similar('someword')を実行したときに「いつ」、「いつ...」(ストップワード)のような単語が現れるのでしょうか?word2vecを使用するときのストップワードの削除

しかし、私はword2vecで停止単語の削除が必要であると言及していませんでしたか?あなたがそれらを削除しない場合でも、word2vecはストップワードを処理するはずですか?

前処理の必要事項(トピックモデリングのように、ストップワードの削除を行う必要があります)は何ですか?

+0

すべては最終用途に依存します。単語ベクトルを使用する究極の目的は何ですか? – alvas

+0

「model.most_similar( 'someword')」を使用して、指定された単語に類似した単語を取得したい – KillBill

+2

ストップワードの有無にかかわらずモデルで何らかの評価を行います。モデルを確認するには、WordNetの同義語に対してチェックしてください。そして、どんなモデルがうまくいくかがわかります。個人的にはストップワードを使用した方がうまくいくと思いますが、ランダムな推測よりも経験的に実験的に表示する方が重要です。 – alvas

答えて

7

個人的に私は、ストップワードの除去は、より良い結果を与えるトピックモデリングにもlink

をチェックすると思います、あなたはあなたがしなければならない事柄以下、テキストの上に前処理を行うshlouldの

  1. 削除ストップワード。
  2. Tokenization.
  3. Stemming and Lemmatization
+0

lemmatizer wordnetでうまくいく:https://gist.github.com/alvations/07758d02412d928414bbを試してみてください – alvas

8

word2vecのオリジナルのTomas Mikolovモデルに基づいたGensimの実装では、すべての頻繁な単語を自動的に頻度に基づいてダウンサンプリングします。それが意味することは、これらの言葉は予測される言葉の窓では考慮されないということです。デフォルトの0.001であるサンプルパラメータは、それらの単語を整理するためのパラメータとして使用されます。頻度に基づいて削除されない特定のストップワードを削除する場合は、そのストップワードを削除できます。 要約:単語の削除を停止すると、結果は大きな違いはありません。

関連する問題