テキストをベクトル化して指定された単語リストのみでdtmを達成する構文は何ですか?保存された単語リストからのみtext2vectorで文書用語行列を生成する方法
指定されたフィーチャに対してのみドキュメント用語行列をベクトル化して生成する方法はありますか?また、機能がテキストに表示されない場合、変数は空のままでなければなりません。
私はモデリングを実行するdtmとまったく同じ列を持つ用語文書行列を生成する必要があります。そうでなければ、新しい文書にランダムなフォレストモデルを使用できません。 - それが良い動作しません2)を実行私は1にはお勧めしません。しかし
v = create_vocabulary(c("word1", "word2"))
vectorizer = vocab_vectorizer(v)
dtm_test = create_dtm(it, vectorizer)
)は、このようなスパースデータのランダムフォレストを使用します。
** quantuma **で作成された 'fcm'で直接text2vecを実行することで、** quanteda **のすべての機能選択ツールを使用できます。 ** text2vec **の出力から項目を選択する方法について質問がある場合は、質問のこの部分をより明確に表現する必要があります。一般的に良いSOの質問は最初に質問を明確にし、質問に答えるために必要な場合にのみ、後の文脈を提供します。あなたが答えが必要な部分が何であるかわからないので、ここで尋ねることの多くがそれから気をそらす。 –
申し訳ありません。私はそれをsuccintにしました。私はそれが受け入れられることを願っています、私の英語はネイティブではありません。 –
@KenBenoit私は非常に興味深いことに、quantedaとtext2vecオブジェクトを同じ意味で使うことができます。一方で、標準のdmパッケージにテキストマイニングパッケージを適合させる方法の簡単で明確な例は見つかりませんでした。それらは、学習セットの特徴に正確に適合する特徴を有するデータを生成することを伴う。 –