corpus

2熱

1答えて

私はtmパッケージを初めて使用しており、助けに感謝します。 tmパッケージ（下記参照）のさまざまな機能を使って、不要なシンボルやストップワードを抽出した投稿がたくさんあります。最後に、必要なクリーンな文字列を含む201のドキュメントが残っていますが、RオブジェクトではなくVCorpusオブジェクトです。これらの処理された文書をすべて1つのテキストファイルにまとめて、長い文字列にすることはできますか

6熱

2答えて

Rでtmパッケージを使用してステミングワードが正しく動作しませんか？

私はいくつかのテキストマイニング（PCA、HC、K-Means）をやっていますが、これまではすべてを正しくコーディングすることができました。しかし、修正したい小さな欠陥があります。私はコーパスを踏みそそうとすると、適切な方法で識別されない同じラジカルの異なる単語が存在するため、コーパスが正しく機能しません。は、これらの私が特に興味を持っている言葉です（それはスペイン語でだと、彼らは「子供」また

1熱

2答えて

STMへのメタデータの追加R

RのSTMパッケージに問題があります。Quantumにコーパスを構築しましたが、STM形式に変換したいと思います。私は独立したCSVファイルとしてメタデータを保存しており、テキスト・ドキュメントとメタデータをマージするコードが必要です。 readCorpus（）と「変換（）関数は、自動的にコーパスにメタデータ情報を追加しないこれはQuantedaでどのように見えるか：。 EUdocvars <-

4熱

1答えて

RでQuantedaを使用する場合、テキストのコーパスから非ASCII文字を削除する最適な方法は何ですか？

私は非常に必要です。私は共通言語に変換したコーパスを持っていますが、いくつかの単語は英語に正しく変換されませんでした。したがって、私のコーパスには "（U + 00F8）"のような非ASCII文字があります。 EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encodingF

0熱

2答えて

テキストファイルをtmコーパスに読み込むためのエンコーディングを設定する

tmコーパスを使用して多数の文書を読み込むエンコーディングを指定する必要があります。すべてのドキュメントは、UTF-8でエンコードされています。テキストエディタを使用したopenendの内容が大丈夫だが、コーパスの内容が奇妙な記号でいっぱいの場合（indicioâ。、 'sœs....）ソーステキストはスペイン語で書かれています。 es_ESの library(tm) cname <- fi

0熱

2答えて

R tmパッケージアップグレード - コーパスをデータフレームに変換する際のエラー

最新のtmアップグレードで何かが間違っているようです。私のコードは以下のようにテストデータ - data = c('Lorem ipsum dolor sit amet, consectetur adipiscing elit', 'Vestibulum posuere nisl vel lobortis vulputate', 'Quisque eget sem in

3熱

1答えて

メタデータに基づいてRのtmコーパスの文書をフィルタリングする方法は？

私はR tmのパッケージを使用していますし、私は彼らのインデックスとそのメタデータによって特定の文書を選択しようとしています： orbit_corpus<-Corpus(tm_corpus, readerControl = list(reader=myReader)) meta(my_corpus[[1]]) author : a8 origin : Department headin

0熱

1答えて

コーパスの各LDAトピックの重みを計算する

私のLDAモデルを計算してトピックを検索しましたが、コーパス上の各トピックの重み/割合を計算する方法を探しています。私が手しかし from itertools import chain print(type(doc_set)) print(len(doc_set)) for top in ldamodel.print_topics(): print(top) print #

2熱

2答えて

コーパスパッケージのtolower機能がエラーをスローする

Twitterのデータを使ってテキストマイニングをしようとしています。私は、次の操作を行います #connect to twitter API setup_twitter_oauth(consumer_key, consumer_secret, access_token, access_secret) #set radius and amount of requests N=200 # t

1熱

1答えて

Python NLTK Naive Bayesクラシファイア

私はNLTK Naive Bayes Classifierをフィーチャ抽出機能features_all（）で正と負のカテゴリを持つデータセットに実装しようとしています。コードを実行すると、features_all（）関数の行にエラーが発生します。ナイーブベイズのためコード： import nltk import random from nltk.corpus import stopwords