私は今、gensimのword2vecライブラリを使用してword2vecをしばらく試しています。私の質問は、入力テキストからストップワードを削除する必要がありますか?私の最初の実験結果に基づいて、私はmodel.most_similar('someword')
を実行したときに「いつ」、「いつ...」(ストップワード)のような単語が現れるのでしょうか?word2vecを使用するときのストップワードの削除
しかし、私はword2vecで停止単語の削除が必要であると言及していませんでしたか?あなたがそれらを削除しない場合でも、word2vecはストップワードを処理するはずですか?
前処理の必要事項(トピックモデリングのように、ストップワードの削除を行う必要があります)は何ですか?
すべては最終用途に依存します。単語ベクトルを使用する究極の目的は何ですか? – alvas
「model.most_similar( 'someword')」を使用して、指定された単語に類似した単語を取得したい – KillBill
ストップワードの有無にかかわらずモデルで何らかの評価を行います。モデルを確認するには、WordNetの同義語に対してチェックしてください。そして、どんなモデルがうまくいくかがわかります。個人的にはストップワードを使用した方がうまくいくと思いますが、ランダムな推測よりも経験的に実験的に表示する方が重要です。 – alvas