tm

    0

    1答えて

    私はコーパスにある400以上の文書のテキストコンテンツ全体を表示します。私は機能writeLinesを使用しましたが、それは文書に含まれる実際のテキストを返さないためには、代わりにこれを返します。 リスト(一覧(コンテンツ= cで(「」、「」)、メタ=リスト(著者=文字(0)、atetimestamp =リスト(秒= 33.0082728862762、最小= 22、時間= 12、月曜日= 5、月=

    1

    1答えて

    Rtmパッケージを使用してテキストで特定したパターンを使用して、txt(またはHTML)ドキュメントから日付を抽出します。私のPC上の新聞の記事はdata_X_txtとdata_X(HTML形式)というフォルダにあります。各フォルダには、1つのtxt文書またはhtml文書にすべての新聞記事を含む会社の名前を付けた文書が含まれています。私はこれらの文書をLexis NexisからHTML形式でダウン

    1

    1答えて

    この問題を回避するにはどうしたらいいですか?私はそうのように、tm::dtmから最も頻繁に単語を抽出しています: > s1<-sort(rowSums(as.matrix(dtm10[,])), decreasing=TRUE) 私が手: 290 429 318 125 128 425 431 153 52 385 144 491 126 423 111 130 492 163 176 391

    3

    1答えて

    私は200以上の文書を持つ大きな文書コーパスを持っています。このような大きなコーパスから期待できるとおり、一部の単語のスペルが間違っていたり、さまざまな形式で使用されたりしています。私は小文字に変換する、句読点を削除する、単語をステミングするなどの標準のテキスト処理を行っています。私はスペルを修正するためにいくつかの言葉を置き換え、分析に移る前にそれらを標準化しようとしています。私は以下のような同

    0

    1答えて

    私は次のようにだから私は、ドキュメントの用語行列を作りたい690のセンテンス500個の単語との独自の用語リストを、 を持っている:私はDocumentTermMatrixtmでパッケージを使用しようとした が、私はマトリックスの単語リストを作る方法を見つけることができません。私は何をすべきか?あるいはあなたが推奨するパッケージや機能は?

    0

    2答えて

    TermDocumentMatrix関数を適用しようとすると、tmパッケージに新しく、障害に遭遇しました。関数が失敗するまで、私は、次のコードを使用している : myCorpus <- Corpus(VectorSource(posts$message)) myCorpus <- tm_map(myCorpus, content_transformer(tolower)) myCorpus <

    2

    1答えて

    私はtmパッケージを初めて使用しており、助けに感謝します。 tmパッケージ(下記参照)のさまざまな機能を使って、不要なシンボルやストップワードを抽出した投稿がたくさんあります。最後に、必要なクリーンな文字列を含む201のドキュメントが残っていますが、RオブジェクトではなくVCorpusオブジェクトです。これらの処理された文書をすべて1つのテキストファイルにまとめて、長い文字列にすることはできますか

    2

    2答えて

    私のコーパスでDocumentTermMatrixを使用すると、単語が小文字になります。私はラクダのケースを保護したいと思います。どうすればいいのですか? as.matrix(DocumentTermMatrix(Corpus(VectorSource(c("Hello", "World"))))) 私は、カラム名をhelloとworldではなくhelloとworldにしたいと考えています。

    1

    1答えて

    R + tm:セマンティック類似性に基づいてリスト内のアイテムを重複排除するにはどうすればよいですか? v<-c("bank","banks","banking", "ford_suv',"toyota_suv","nissan_suv")。私の期待される解決策はc("bank", "ford_suv',"toyota_suv","nissan_suv")です。すなわち、銀行、銀行および銀行は、1