quanteda

0熱

1答えて

TM、Quanteda、text2vec。正規表現のパターンに従って単語リストのtermの左側に文字列を取得する

名前、住所、電話番号の存在について、いくつかの言語で大きなテキストフォルダを分析したいと思います。これらは、通常、「住所」、「電話番号」、「名前」、「会社」、「病院」、「救助者」という単語が先行します。私はこれらの言葉の辞書を持っています。テキストマイニングツールが仕事に最適かどうかは疑問です。私は、これらのすべてのドキュメントのコーパスを作成し、特定の辞書エントリの右または下に特定の（私は

0熱

1答えて

quanteda dfmに参加するすべてのdfm 2から5グラムで

非常に大きなコーパスサンプルを扱うときにメモリスペースを節約するために、私は上位10個の1グラムを取り出し、それらを2から5グラムすべてと組み合わせて自然言語処理[nlp]予測に使用される私の単一のquanteda :: dfmSparseオブジェクトです。すべての1グラムを運ぶことは無意味です。なぜなら、私が使っているシンプルなバックオフモデルでは、トップ10（または20）しか使用されないからで

0熱

1答えて

Shinyのアプリケーションテキストボックスに入力したテキストで一致する文を表示する

私は、コーパスをテキストボックスからマッチングさせることで、データベースの列から文章を動的に表示できるShiny Appを構築しようとしています。ユーザーがテキストボックスにテキストを入力し始めると、一致するすべての文（入力されたテキストのコーパス）がコーパスに一致する単語の順番で表示される必要があります kwic機能を試しましたが、動的コーパス、私は require(quanteda) req

1熱

1答えて

ベクトルによるデータフレームの形状変更

textstat_frequency{package:quanteda} という関数は、次のデータフレームを与えます。 data.frame(xx=1:4,yy=5:8,foo=c("A","A","B","C"),stringsAsFactors=FALSE) xx yy foo 1 1 5 A 2 2 6 A 3 3 7 B 4 4 8 C ベクトル c("B","A",

0熱

1答えて

Quanteda Corpusesを使用して名詞を識別する

Ken BenoitとPaul Nultyによるquantedaパッケージを使用してテキストデータを扱います。私のコーパスには完全なドイツ語の文章が含まれており、すべてのテキストの名詞のみで作業したいと考えています。ドイツ語の1つのトリックは、大文字の単語だけを使用することですが、これは文頭に失敗します。この最小限の例から Text1 <- c("Halle an der Saale ist d

1熱

2答えて

文書内の特定の用語に対する単語の近接度を計算する方法

文書内の特定の用語に対する単語の近接度と、平均近接度（ワード単位）を計算する方法を理解しようとしています。私はそれに似た質問があることを知っていますが、私に必要な答えを与えたり、助けてくれと指摘するものはありません。にどちらかの側の言葉は、左へ15（（私は交換可能で、この数をしたいと思います）私は15内に現れるものを言葉見ることができるようにしたい song <- "Far over the mi

1熱

1答えて

kwicオブジェクトを単一のdfmに変換する

私は、研究のために特定の部分だけが興味深い新聞記事のコーパスを持っています。データにノイズが多すぎるため、さまざまなフレームに沿ってテキストを分類することで得られる結果に満足できません。したがって、私は文書から関連する部分だけを抽出したいと思っています。私は、quantedaパッケージによって生成されたいくつかのkwicオブジェクトを単一のdfに変換することによってそうすることを考えていました。

0熱

1答えて

featnames（myDFM）に1つ以上のトークンの機能が含まれているのはなぜですか？

私は大1Mドキュメントコーパスでの作業だし、それから、文書頻度行列を作成する際には、いくつかの変換を適用しています library(quanteda) corpus_dfm <- dfm(tokens(corpus1M), # where corpus1M is already a corpus via quanteda::corpus() remove = stopwords

0熱

1答えて

KWICの既存データフレームへR

Quantedaパッケージの結果を既存のスプレッドシートに追加したいと思います。例： newdf<- as.data.frame(kwic(x, keywords, window = 5, valuetype = c("glob", "regex", "fixed"),case_insensitive = TRUE, ...)) これは、複数の列を持つデータフレームを作成します。私は、これが

3熱

1答えて

Quanteda：単語の自分のリストを削除するには

quantegaにポーランド語のストップワードを実装する準備ができていないので、自分のリストを使用したいと思います。私はスペースで区切られたリストとしてテキストファイルに入れています。必要に応じて、新しい行で区切られたリストを用意することもできます。私のコーパスからストップワードのカスタムリストを削除するにはどうすればよいですか？ステミング後にどうすればいいですか？私はまた、構文の単語のよう