tm

    9

    2答えて

    Rのtmパッケージを使用して、各行がフィードバックの異なるインスタンスであるという顧客からのフィードバックのCSVファイルを取得しようとしています。このフィードバックのすべてのコンテンツをコーパスにインポートしたいが、DocTerms Matrixのフィードバックを比較できるように、各行をコーパス内の別のドキュメントにしたい。私のデータセットには10​​,000以上の行があります。 もともと私は次

    0

    2答えて

    私はRを使った数式では新しく、いくつかの反復コードをよりコンパクトなものに変更するのにかなり苦労しています。 MrFlickのコメントで示唆されているように、私はすでに答えのセクションで見つかった作業ソリューションを投稿しました。 私の問題は、ここではwikispiral.orgで見ることができるように、いくつかの異なる分類を使用して、比較対象のワードクラウドにさまざまなコーパスを作成することです

    1

    1答えて

    私は大きな問題を抱えています。より具体的な問題は、一度解決すればより大きな問題を解決できます。誰かが私に試してみるアイデアがあれば、本当に感謝しています。 基本的には、{slam}パッケージを使用して単純なトリプレットマトリックスとして保存され、実行している巨大な疎なマトリックス(約300k×150k、元はR's {tm}パッケージで作成されたTerm-Documentマトリックス)一連の用語をル

    6

    1答えて

    Naive Bayes Classifierをドキュメント用語行列と連携させるのは非常に厄介な問題です。私は非常に単純な間違いをしていると確信していますが、それが何であるか把握することはできません。私のデータはアカウントスプレッドシートからのものです。私はどのカテゴリ(テキスト形式:主に部門名や予算名)が慈善団体に費やす可能性が高く、民間企業に費やすのはどれだけ(または唯一の)ものなのかを尋ねられ

    0

    1答えて

    R(3.2.3)tm-package(0.6-2)を使用しています。メタダム "id"。 たとえば、「id」列内に文字列「US」を含むすべてのドキュメントをフィルタリングしたいとします。文字列「US」の前には、さまざまな文字と数字が続きます。 私は同様の例を見つけましたhere。 quantedaパッケージをダウンロードすることをお勧めしますが、これはtmパッケージでも可能であるはずです。 同様の

    1

    2答えて

    R、 'tm'パッケージを使用して.pdfファイルを読み込む際に問題があります。 は具体的に、私は次のコードを実行しよう: library(tm) filename = "myfile.pdf" tmp1 <- readPDF(PdftotextOptions="-layout") doc <- tmp1(elem=list(uri=filename),language="en",id="

    0

    3答えて

    私はテキスト解析を行うためにRとtmパッケージを使用しています。 私は、特定の式が個々のテキストファイルの内容内にあるかどうかに基づいて、コーパスのサブセットを構築しようとしています。 私は20個のテキストファイル(この例ではあなたにlukeAに感謝)とコーパス作成します。私は今、サブセット・コーパスを作成するには、文字列「低価格化」が含まれているのみテキストファイルを選択したいと思います reu

    7

    3答えて

    tm::DocumentTermMatrixのドキュメント間のJaccard類似性を効率的に計算する方法が必要です。私はスラムパッケージのようにコサインの類似性について同様のことを行うことができますthis answer.私はanother question and responseクロスリダイレクトされた特定のRでしたが、行列の代数は必ずしも最も効率的なルートではありませんでした。私は、より効率

    2

    1答えて

    "say say make made"というファイルを含む 'check_text.txt'があります。私はそれを形づくって "make make make say"と言うことをしたいと思います。私はstemDocumentをtmパッケージに入れようとしましたが、以下のように "make made made say"と言うだけです。過去の緊張した言葉に形づくをする方法はありますか?現実の自然言語処

    6

    2答えて

    私は26のプレーンテキストファイルのコーパスを持っていて、それぞれ12〜148kbの合計1.2Mbです。私はWindows 7のラップトップでRを使用しています。 私はすべての通常のクリーンアップ(ストップワード、カスタムストップワード、小文字、数字)を行い、ステム補完をしたいと思います。私は、例に示すように、元のコーパスを辞書として使用しています。私は単純なベクトルを2つ試してみましたが、それは