tm - 優秀な図書館

tm

0熱

1答えて

複数のテキストを含む1日のセンチメントスコアを平均化するにはどうすればよいですか？

私は、tmパッケージを使用してRでテキストセンチメント分析を行っています。私はロイターからのニュース記事を盗んで、日付に応じて変数名を付けました。私はこのような一日あたりの複数の記事、示すために、B、Cなどを追加しました： art170411aを art170411b art170411c art170410a ... ... 私はその後、実行します記事ごとに感情スコアを与える標準的な正/負の用語

0熱

1答えて

ワードクラウドとテキストマイニングのエンコーディングの問題

イタリア語でFacebookページの投稿のワードクラウドを実装しようとしています。私はワードクラウドをうまく開発することができますが、à、è、òなどのイタリア語に特有の特定の文字をレンダリングする際に問題があります。これらを避けるために、すべてのテキストをUTF-8でエンコードすることです問題。なにか提案を？はここ SpecialCharacterCleaner <- function(text

1熱

1答えて

pdfファイルをdata.framesに変換する

現在、多くのpdfファイルをデータフレームに読み込む関数を作成しようとしています。私の最終的な目標は、pdfファイルから特定の情報を読み取り、各行の保険プラン名と個々のプラン価格、家族計画価格など必要な情報で構成される列を含むdata.frameに変換することです。 answer given by someone for a similar question in the pastに続いています。

3熱

1答えて

Rの中でDocumentTermMatrixを 'dictionary'パラメータで使用する

テキスト分類にRを使いたい。私は言葉の行列を返すためにDocumentTermMatrixを使用します。 library(tm) crude <- "japan korea usa uk albania azerbaijan" corps <- Corpus(VectorSource(crude)) dtm <- DocumentTermMatrix(corps) inspect(dtm)

1熱

1答えて

R：単語3文字以下の単語を省略したwordcloudパッケージ

wordcloudパッケージを使用してwordcloudを作成すると、デフォルトでは3文字以下の単語（「tv」など）が省略されているようです。私はこれがバグではなく機能だと思っていますが、引き続き最小文字カウントを調整する議論を見つけることができませんでした。 wordcloudはコーパス（）とtm_mapで作成し、前処理した単語（）TMパッケージから機能のコーパスに対して実行されます。問題の言葉

0熱

1答えて

改行 "\ n"の後にコーパスコンテンツをベクターに変換するには

プレーンテキストでstrsplitを使用しようとすると、保存された値が文字列から文字列のベクトルに変換されるという望ましい特性があります。例えば、 txt = "The fox is Brown.\nThe Fox has a tail." strsplit(txt, "\n") 私は私のコーパスを作成するときに、私は、R 3.4.0でTM（v0.7-1） 7. Windows上でのNLPパ

0熱

1答えて

私は最初の単語が同じレコードに「メイン」という単語と単語の残りの部分であるcsvファイルから同義語を読みたい同義語

のための2の複数のリストのリストは、その同義語です今私は基本的にこれは私に、本質的にリスト0である synonyms [[1]] [[1]]$word [1] "ss" [[1]]$syns [1] "yy" "yyss" [[2]] [[2]]$word [1] "ser" [[2]]$syns [1] "sert" "sertyy" "serty" としてリ

0熱

1答えて

Rのtmパッケージに関する問題

私はUdemyのチュートリアルに続き、Rのtmパッケージを使ってツイートのテキストマイニングを行っています。チュートリアル（およびcran.orgのtm pdf）で指定されている関数の多くは、一連のエラーが発生するため、解決方法が不明です。私はRStudio Version 1.0.143とmacOS Sierraでコーディングしています。コードとエラーは以下の通りですつぶやきのシリーズからwo

1熱

1答えて

Stemcompletion in R

Rのテキストマイニングに取り組んでいますが、句読点、数字、URL、ストップワードを削除した後で、私のコーパスの文書はほとんどありません。その後 myStopwords <- setdiff(myStopwords, c("r", "big")) myCorpus <- tm_map(myCorpus, removeWords, myStopwords) myCorpus <- tm_map(m