tm - 優秀な図書館

tm

0熱

1答えて

私はコーパスにある400以上の文書のテキストコンテンツ全体を表示します。私は機能writeLinesを使用しましたが、それは文書に含まれる実際のテキストを返さないためには、代わりにこれを返します。リスト（一覧（コンテンツ= cで（「」、「」）、メタ=リスト（著者=文字（0）、atetimestamp =リスト（秒= 33.0082728862762、最小= 22、時間= 12、月曜日= 5、月=

1熱

1答えて

txt/HTMLファイルから未知の日付を抽出するR

Rtmパッケージを使用してテキストで特定したパターンを使用して、txt（またはHTML）ドキュメントから日付を抽出します。私のPC上の新聞の記事はdata_X_txtとdata_X（HTML形式）というフォルダにあります。各フォルダには、1つのtxt文書またはhtml文書にすべての新聞記事を含む会社の名前を付けた文書が含まれています。私はこれらの文書をLexis NexisからHTML形式でダウン

1熱

1答えて

r tmソート操作後に文書IDを抽出します

この問題を回避するにはどうしたらいいですか？私はそうのように、tm::dtmから最も頻繁に単語を抽出しています： > s1<-sort(rowSums(as.matrix(dtm10[,])), decreasing=TRUE) 私が手： 290 429 318 125 128 425 431 153 52 385 144 491 126 423 111 130 492 163 176 391

3熱

1答えて

R tm gsubを使用してコーパスの単語を置換する

私は200以上の文書を持つ大きな文書コーパスを持っています。このような大きなコーパスから期待できるとおり、一部の単語のスペルが間違っていたり、さまざまな形式で使用されたりしています。私は小文字に変換する、句読点を削除する、単語をステミングするなどの標準のテキスト処理を行っています。私はスペルを修正するためにいくつかの言葉を置き換え、分析に移る前にそれらを標準化しようとしています。私は以下のような同

0熱

1答えて

自分の用語リストを使って文書用語行列を作成するにはどうすればよいですか？

私は次のようにだから私は、ドキュメントの用語行列を作りたい690のセンテンス500個の単語との独自の用語リストを、を持っている：私はDocumentTermMatrixtmでパッケージを使用しようとしたが、私はマトリックスの単語リストを作る方法を見つけることができません。私は何をすべきか？あるいはあなたが推奨するパッケージや機能は？

0熱

2答えて

TermDocumentMatrixをtmパッケージに作成中にエラーが発生しました

TermDocumentMatrix関数を適用しようとすると、tmパッケージに新しく、障害に遭遇しました。関数が失敗するまで、私は、次のコードを使用している： myCorpus <- Corpus(VectorSource(posts$message)) myCorpus <- tm_map(myCorpus, content_transformer(tolower)) myCorpus <

2熱

1答えて

テキストをtmパッケージのRオブジェクトに戻す

私はtmパッケージを初めて使用しており、助けに感謝します。 tmパッケージ（下記参照）のさまざまな機能を使って、不要なシンボルやストップワードを抽出した投稿がたくさんあります。最後に、必要なクリーンな文字列を含む201のドキュメントが残っていますが、RオブジェクトではなくVCorpusオブジェクトです。これらの処理された文書をすべて1つのテキストファイルにまとめて、長い文字列にすることはできますか

2熱

2答えて

DocumentTermMatrixを使用しているときの小文字変換を防止します

私のコーパスでDocumentTermMatrixを使用すると、単語が小文字になります。私はラクダのケースを保護したいと思います。どうすればいいのですか？ as.matrix(DocumentTermMatrix(Corpus(VectorSource(c("Hello", "World"))))) 私は、カラム名をhelloとworldではなくhelloとworldにしたいと考えています。

1熱

1答えて

セマンティック類似性/関連性に基づいてリストから重複を削除する

R + tm：セマンティック類似性に基づいてリスト内のアイテムを重複排除するにはどうすればよいですか？ v<-c("bank","banks","banking", "ford_suv',"toyota_suv","nissan_suv")。私の期待される解決策はc("bank", "ford_suv',"toyota_suv","nissan_suv")です。すなわち、銀行、銀行および銀行は、1