text-analysis

    6

    1答えて

    私は感想を生成するためにtwitter APIを使用しています。私はつぶやきに基づいて単語雲を生成しようとしています。このため pal <- brewer.pal(8,"Dark2") wordcloud(clean.tweets,min.freq = 125,max.words = Inf,random.order = TRUE,colors = pal) 結果: 私もこれを試してみまし

    0

    1答えて

    pdfファイルのいくつかの一般的なプロパティを抽出したいと思います。これまでのところ、これは非常にうまくいっています。ただし、新しい入力ファイルを試してみると、私は今、奇妙な新しいエラーに遭遇しました。 解析のために、私はpdfminer.sixを使用しています。 、今 pdf_data = { 'Number of words': len(words), 'Number of

    1

    1答えて

    tmパッケージを使用して準備されたドキュメント用語マトリックスで、構造化トピックモデル(stmパッケージを使用)を実行しようとしています。 私は、次のメタデータが含まれていtmパッケージ内のコーパス構築された:いくつかのテキストクリーニングを行うと、clean_corpus2(まだ存在するメタデータ)として結果を保存した後 library(tm) myReader2 <- readTabula

    0

    1答えて

    私はmost_used_wordsデータフレーム内の単語を含む列を分析しています。 となります。 2180の言葉のI AFINN辞書とinner_joinのみ364を獲得している most_used_words word times_used <chr> <int> 1 people 70 2 news 69 3 fake 68 4 countr

    0

    1答えて

    私は、テキスト文書の束(約140本)についてテキスト分析をしようとしています。各文書は、前処理して不必要な単語とストップワードを除去した後、約7000文(nlktの文トークナイザによって決定される)を有し、各文は平均約17語を有する。私の仕事は、それらの文書に隠されたテーマを見つけることです。 私は、トピックモデリングをやっについて考えています。しかし、私が持っているデータがLDAを介して意味のあ

    0

    1答えて

    次のコードを使用してDocument Term Matrixを作成しています。行列を作成するのに問題はありませんが、スパース項を削除しようとしたり、頻出条件を見つけようとするとエラーが発生します。ここで text<- c("Since I love to travel, this is what I rely on every time.", "I got this card for

    2

    2答えて

    私はredditコメントでテキスト解析を行い、BigQuery内でTF-IDFを計算したいと思います。

    -1

    1答えて

    私はWebサイトからダウンロードし、BeautifulSoupを使って解析したテキストから¥x92、¥xa0などの記号を削除しようとしています。そして、私はどこにでもこれらのシンボル(エンコーディング)があることを知ります。私はtxtからこれらの記号を削除するためにre.sub(r'[^\x00-x7F]',' ',txt) を使用していますが、私はyの各出現を失っていることに気付きました。たとえ