私は2つのコーパスを作成しました.1つはツイートテキストを含み、もう1つは会社名を含んでいます。私がしようとしているのは、どの企業がつぶやきで言及されているかを見つけることです。つぶやきの 例の文書: > writeLines(as.character(tweet_corp[[175]]))
general motor send mexican made model chevi cruze us
from gensim.models.keyedvectors import KeyedVectors
model = KeyedVectors.load_word2vec_format('google_news.bin', binary=True)
print(model['the']) # this prints the 300D vector for the word 'the'
コ
私は、2世紀にわたる政治的なスピーチのデータセットでトピックモデリングを実行しようとしています。時間の話題(McCallum and Wang 2006)や動的トピックモデル(Blei and Lafferty 2006)。 しかし、経験豊富なコーダーではないので、これらのトピックモデルを実装しているRパッケージやサンプルコードの助けが本当に役立ちます。 Rにそのようなパッケージや公開されたコード
現在、私はBrown Corpusと共同で作業しており、若干問題があります。トークン化機能を適用するには、まずブラウンコーパスを文章にする必要があります。これは私がこれまで持っているものです。 from nltk.corpus import brown
import nltk
target_text = [s for s in brown.fileids()
if s.s