corpus

    2

    1答えて

    私はtmパッケージを初めて使用しており、助けに感謝します。 tmパッケージ(下記参照)のさまざまな機能を使って、不要なシンボルやストップワードを抽出した投稿がたくさんあります。最後に、必要なクリーンな文字列を含む201のドキュメントが残っていますが、RオブジェクトではなくVCorpusオブジェクトです。これらの処理された文書をすべて1つのテキストファイルにまとめて、長い文字列にすることはできますか

    6

    2答えて

    私はいくつかのテキストマイニング(PCA、HC、K-Means)をやっていますが、これまではすべてを正しくコーディングすることができました。しかし、修正したい小さな欠陥があります。 私はコーパスを踏みそそうとすると、適切な方法で識別されない同じラジカルの異なる単語が存在するため、コーパスが正しく機能しません。 は、これらの私が特に興味を持っている言葉です(それはスペイン語でだと、彼らは「子供」また

    1

    2答えて

    RのSTMパッケージに問題があります。Quantumにコーパスを構築しましたが、STM形式に変換したいと思います。私は独立したCSVファイルとしてメタデータを保存しており、テキスト・ドキュメントとメタデータをマージするコードが必要です。 readCorpus()と「変換()関数は、自動的にコーパスにメタデータ情報を追加しない これはQuantedaでどのように見えるか:。 EUdocvars <-

    4

    1答えて

    私は非常に必要です。私は共通言語に変換したコーパスを持っていますが、いくつかの単語は英語に正しく変換されませんでした。したがって、私のコーパスには "(U + 00F8)"のような非ASCII文字があります。 EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encodingF

    0

    2答えて

    tmコーパスを使用して多数の文書を読み込むエンコーディングを指定する必要があります。 すべてのドキュメントは、UTF-8でエンコードされています。テキストエディタを使用したopenendの内容が大丈夫だが、コーパスの内容が奇妙な記号でいっぱいの場合(indicioâ。、 'sœs....) ソーステキストはスペイン語で書かれています。 es_ESの library(tm) cname <- fi

    0

    2答えて

    最新のtmアップグレードで何かが間違っているようです。私のコードは以下のようにテストデータ - data = c('Lorem ipsum dolor sit amet, consectetur adipiscing elit', 'Vestibulum posuere nisl vel lobortis vulputate', 'Quisque eget sem in

    3

    1答えて

    私はR tmのパッケージを使用していますし、私は彼らのインデックスとそのメタデータによって特定の文書を選択しようとしています: orbit_corpus<-Corpus(tm_corpus, readerControl = list(reader=myReader)) meta(my_corpus[[1]]) author : a8 origin : Department headin

    0

    1答えて

    私のLDAモデルを計算してトピックを検索しましたが、コーパス上の各トピックの重み/割合を計算する方法を探しています。私が手しかし from itertools import chain print(type(doc_set)) print(len(doc_set)) for top in ldamodel.print_topics(): print(top) print #

    2

    2答えて

    Twitterのデータを使ってテキストマイニングをしようとしています。私は、次の操作を行います #connect to twitter API setup_twitter_oauth(consumer_key, consumer_secret, access_token, access_secret) #set radius and amount of requests N=200 # t

    1

    1答えて

    私はNLTK Naive Bayes Classifierをフィーチャ抽出機能features_all()で正と負のカテゴリを持つデータセットに実装しようとしています。コードを実行すると、features_all()関数の行にエラーが発生します。ナイーブベイズのため コード: import nltk import random from nltk.corpus import stopwords