text-mining

    6

    1答えて

    私は2014-11-01と2015-10-31の間のBitcoinサブレディト内のすべての投稿を掻き集める機能を持っています。 しかし、私は10月25日までしか戻っていない約990の投稿を抽出することができます。何が起こっているのか分かりません。私は、https://github.com/reddit/reddit/wiki/APIを参照した後に各抽出物の間に15秒のSys.sleepを含めて、役

    6

    3答えて

    私は自分のデータに対していくつかのデータ調整を行う予定です。 状況 -Iには、フィールドがcountryであるデータがあります。これにはユーザー入力の国名が含まれています(スペルミスや、米国のような同じ国の異なる国名が米国の場合は米国/米国/米国が含まれている可能性があります)。私は正しい国名のリストを持っています。 私が欲しいもの - それが参照している最も近い国を予測する。たとえば、U.S.が

    5

    1答えて

    私は、その感情に応じてつぶやきを3つのカテゴリ(Buy、Hold、Sell)に分類しようとしています。私はRとパッケージe1071を使用しています。 私は2つのデータフレームを持っています:1つのトレーニングセットと1つの新しいツイートセットです。これは、感情を予測する必要があります。 トレーニングセットのデータフレーム: +------------------------------------

    0

    2答えて

    私はRを使った数式では新しく、いくつかの反復コードをよりコンパクトなものに変更するのにかなり苦労しています。 MrFlickのコメントで示唆されているように、私はすでに答えのセクションで見つかった作業ソリューションを投稿しました。 私の問題は、ここではwikispiral.orgで見ることができるように、いくつかの異なる分類を使用して、比較対象のワードクラウドにさまざまなコーパスを作成することです

    0

    1答えて

    電子メールのセットでテキスト分類を実行する必要があります。しかし、私のテキストのすべての単語は薄く疎である、すなわちすべての文書に関して各単語の頻度は非常に少ない。言葉はあまり頻繁に繰り返されていません。分類器を訓練するために、私は文書用語行列を頻度として重みが適切でないと思う。私が使用する必要がある他のどのような方法を提案してください。 おかげ

    4

    2答えて

    郵便住所の形式が異なる場合や、郵便住所の1つが誤って綴られている場合に、郵便住所の照合方法を知りたいと思います。 これまでのところ、私はさまざまな解決策を見つけましたが、かなり古くて効率的ではないと思います。私はいくつかのより良い方法が存在すると確信しています。もし私が読むための参照があれば、それはいくつかの人に興味があるかもしれない主題であると確信しています。私が見つけた ソリューションは、(例

    -1

    1答えて

    質問は、テキストデータを重み付きの数値に変換する方法について説明しました。 たとえば、「BMW」、「MERCEDES」、「FIAT」という値があるとします。 通常の変換では、数字1,2,3を与えることになります。 これらの値の間の距離を測定する場合は、「BMW」と「メルセデス」の間に1、「BMW」と「FIAT」は、「BMW」と「FIAT」の間の距離が、同じ価格カテゴリに属しているため、「メルセデス

    9

    1答えて

    私のUbuntu 14.04.xマシンにはアプリケーションがあります。このアプリケーションは、PDFファイルのテキストマイニングを行います。私は私のマシン上でこれらのフォントを取得できますか 2015-09-10 14:15:35 [WARN] FontManager Font not found: CourierNewPSMT 2015-09-10 14:15:36 [WARN] FontMa

    11

    1答えて

    RTextToolsパッケージを実行して、テキスト分類モデルを作成していました。 予測データセットを準備し、それを行列に変換しようとしました。私のコードは以下の通りです Error in if (attr(weighting, "Acronym") == "tf-idf") weight <- 1e-09 : argument is of length zero :として私はエラーを

    5

    2答えて

    私は請求書と請求書のコレクションを持っているので、テキストに文脈はありません。 私はそれらの請求書から人名を抽出したいと思います。 私はOpenNLPを試しましたが、私にはコンテキストがないので、訓練されたモデルの品質は良くありません。 最初の質問は次のとおりです。モデルをトレーニングするには、コンテキストなしの人名のみが含まれていますか?それが可能であれば、私が新しいモデルを構築する方法について