tm

    15

    1答えて

    にTMパッケージを使用して、複数のコーパスのトップN頻度の高い用語のデータフレームを作ります最終的のような出力テーブルで終わる:定義により corpus1 corpus2 "beach" "city" "sand" "sidewalk" ... ... [10th most frequent word] 、findFreqTerms(corpus1,N)戻っN回以上出現する用語のすべ

    6

    3答えて

    tmライブラリにこれ用にあらかじめ構築された関数があるのか​​、それともうまくいくのでしょうか? 私の現在のコーパスは、TM、次のようにのようなものにロードされます: s1 <- "This is a long, informative document with real words and sentence structure: introduction to teaching third-g

    7

    2答えて

    を無視して2次DTM-S:私はこれを実装すると、私は二つの等しいDTM-S見ると、私はdtmImprovedを開くと、そこにある dtm <- DocumentTermMatrix(t) dtmImproved <- DocumentTermMatrix(t, control=list(minWordLength = 4, minDocFreq=5)) 3つの記号のある単語

    9

    2答えて

    tm -packageでRでテキストマイニングを行っています。すべてが非常にスムーズに動作します。しかし、ステミング後に1つの問題が発生します(http://en.wikipedia.org/wiki/Stemming)。明らかに、同じ幹を持ついくつかの単語がありますが、それらが「一緒に投げ込まれていない」ことは重要です(これらの単語は異なることを意味します)。 例については、以下の4つのテキスト

    11

    2答えて

    私は、用語 - 文書マトリックスからタグクラウドを生成する実用的なRコードを持っています。 今、多くのドキュメントから一群のタグクラウドを作成し、後で視覚的に検査したいと考えています。 タグクラウドの画像がどの文書/コーパスに属しているかを知るためには、生成された画像にタイトルを追加する必要があります。それ、どうやったら出来るの? 多分これは明らかですが、私はまだRグラフィックの初心者です。 私自

    1

    3答えて

    私はパッケージtmを使用しています。私はhtml文書でいっぱいのコーパスを持っており、htmlタグ以外のすべてを削除したいと思います。私は数日間それをしようとしてきましたが、私は良い解決策を見つけることができないようです。例えば 、のは、私はこのような文書を持っているとしましょう: <html> <body> <h1>hello</h1> </body> </html> 私は、文書

    47

    4答えて

    tm_mapを使ってみました。それは次のエラーを出しました。どうすればこの問題を回避できますか? require(tm) byword<-tm_map(byword, tolower) Error in UseMethod("tm_map", x) : no applicable method for 'tm_map' applied to an object of class "

    5

    5答えて

    1859個のドキュメント(行)と25722(列)を含むDocumentTermMatrixを作成しました。この行列をさらに計算するために、それを規則的な行列に変換する必要があります。 as.matrix()コマンドを使用します。ただし、次のエラーを返します。サイズ364.8 MBのベクトルを割り当てることができません。 > corp A corpus with 1859 text documen

    5

    2答えて

    テキストベースのトレーニングデータとテストデータがあるとします。具体的には、トレーニングとテストという2つのデータセットがあり、どちらもテキストを含む1つの列を持ち、手元にある仕事のために興味があります。 Rでtmパッケージを使用して、トレーニングデータセットのテキスト列を処理しました。空白、句読点、およびストップワードを削除した後、私はコーパスを抹消し、最終的に各文書の単語の頻度/カウントを含む

    5

    1答えて

    R 2.15.1でtmパッケージとwordcloudパッケージを使用しています。 私はDTMから単語雲を作ろうとしています。ここでは、コードは次のとおりです。 library(wordcloud) thedtmsparse = inspect(sparse) trymatrix = t(thedtmsparse) colnames(trymatrix) = c() comparison.c