text-mining

5熱

1答えて

私はこの用語を「Explicit Semantic Analysis」と呼んでいます。これは、Wikipediaを参考にして、ドキュメントの類似性を見つけ出し、それらをクラスに分類します（私が間違っていると正しいものにします）。私が出会ったリンクはhere 私はそれについての詳細を学びたいと思っています。それで私を助けてください！

2熱

2答えて

単語を分析するためのアルゴリズムを開発する

私は7つの「投稿」を持つプロジェクトに取り組んでいます。投稿は件名の文章だけです。私がする必要があるのは、投稿を見て特定の傾向を特定するアルゴリズムを開発することです。たとえば、「Aは良好ですがBを引き起こします。私はAとBの間のリンクを特定するアルゴリズムを開発する必要があります。しかし、あなたは私のサブアンプの説明からわかるかもしれませんが、私はこの問題にどう対処するか分かりません。誰かが

-1熱

1答えて

C＃でのテキストマイニング

テキストを分析するためのC＃オープンソースライブラリがあり、カテゴリ別に分類することができ、異なる言語でカスタマイズすることができます。私は、単語からベクトル空間を作り、どの単語が人や組織、場所などであるかを示し、作成されたデータベースに基づいてテキストの主な特徴を認識し抽出するライブラリからの学習段階を期待しています。

0熱

1答えて

Javaでsvdの問題

私はジャマとコルト（私はJavaでコード）を通過しました。どちらも、行数がcoloumnsの数を超えるような配列を使用することを期待しています。しかし、潜在意味解析（LSA）の場合、私は5冊の本があり、合計1000個の奇数語があります。私は、用語の文書の行列を使用すると私は5 * 1000の行列を取得します。これはうまくいきませんので、私は行列を転置しなければなりません。転置で私は1000 *

0熱

1答えて

Webページからテキストコンテンツを抽出する方法は？

私は、さまざまなWebページからテキスト情報を取り込んで、1ページにまとめることができるjavaでアプリケーションを開発しています。たとえば、ヒンズー教、インドの時代、政治家などの異なるWebページにニュースがあるとします。今、私のアプリケーションは、これらのページのそれぞれから重要なポイントを抽出し、単一のニュースとしてまとめます。このアプリケーションは、Webコンテンツマイニングの概念に基づい

10熱

2答えて

この例をここで複製しようとすると、R

のプロット領域のワードクラウドのサイズをどのように大きくすることができますか。 http://onertipaday.blogspot.com/2011/07/word-cloud-in-r.html は、ワードクラウドのプロット面積を大きくする方法を考え出す助けが必要です。 png（ "wordcloud_packages.png"、width = 1280、height = 800）の高さ

0熱

2答えて

特定の形式でWebにログオンする方法

Webアプリケーションなどの侵入を検出するデータマイニングソフトウェアを作成します。このソフトウェアは、Webサイトのアクセスログを調べ、通常の動作を表していない異常値を検出して動作します。テストのために今私はいくつかのaccess.logまたは行にこの構文を持っている他のWebログを必要と私のソフトウェア： - - - [06/Jan/2009:06:46:07 +0000] "GET /l

-2熱

2答えて

類似度

私は2つの文書を比較し、類似度を見出す必要があります。私がする必要があるのは、2つのドキュメントを比較し、結果として数値を与えることだけです。数字は類似度を表している必要があります（類似したドキュメントのほうが大きい）このプロセスを実行するには、効果的な手段が必要です。（類似度のみ類似した単語の基礎で測定されていませんが、コンテキストがあまりにも考慮に入れなければならない。）誰もがこのプロ

0熱

3答えて

テキストマイニングにはどのプラットフォーム/ツール/ソフトウェア/言語を使用すべきですか？

私はテキストマイニングの分野の先駆者です。私は文書の類似性に関する作業を行う必要があります.2つの文書を比較し、それらの間の類似性を数値として提示することを目指します。私はこれについて多くの理論を読んだ。私はコサインの類似性から始めようとしていますこれらの基本的な質問で私を助けることができますか： 1.どのプラットフォームですか？（windows/linux） 2.何のツール（人々はweka

1熱

2答えて

tmパッケージのテキストを分割する - スピーカーを認識する

私は、議会のスピーチで最も頻繁に使用される言葉を特定しようとしており、議員によってそれらを分けなければなりません。私はRとtmパッケージについて学び始めたばかりです。私は最も頻繁な単語を見つけることができるコードを持っていますが、スピーチのスピーカーを自動的に特定して保存するためにどのようなコードを使用できますか？テキストは次のようになります。 OPENING STATEMENT OF SENA