2012-01-05 6 views
3

私たちは、多数の被験者の1分あたりのポストの量を表す数値を持っています。私たちはパターンを見つけることができるようにして、今後投稿の量がどのようになるか予測できるようにしたいと考えています。時間ベースのデータのパターンマイニング用のJavaライブラリ

パターン検出プロセスを自動的に(人間の介入は必要ありません)、自動化する方法があるかどうか疑問に思っています。私たちは "パターンマイニング"について読んできましたが、作業を開始できるJavaライブラリは見つかりませんでした。

このパターンマイニングプロセスを自動化するために使用できる時間ベースのデータにパターンマイニング用のJavaライブラリがありますか?前もって感謝します。

+0

日付解析のために 'SimpleDateFormat'を使用しないのはなぜですか?それともジョーダタイム?サンプルを渡せますか? – fge

+0

"自動化"することで、私はそれを行うコードを書くでしょう。データマイニングは、自分が掘り下げようとしていることやデータがどのように表現されているかに非常に特化している傾向があります。コンピュータは人間のようなパターンを自動的に見つけ出すわけではありません。データがモデルにどれだけ近似するかを判断するコードを書く必要があります。 –

答えて

0

Javaにはかなりのデータマイニングライブラリがあります。私はWEKAを分類および関連鉱業(http://www.cs.waikato.ac.nz/ml/weka/)に使用しました。私はクラスタリング(http://mahout.apache.org/)のためにMahoutも使用しました。あなたは、あなたのデータの取り扱いに関して、あなたが何をしているのかを事前に知る必要があります。あなたの時間の95%は、悪いデータを取り除き、それらのフレームワークが使用できるフォーマットに残っているものを前処理するために費やされます。

あなたの問題の詳細については、少し明るいです。あなたのデータ内のいくつかのイベントの頻度に基づいて何らかの警告システムが必要なように思えます。それが純粋に周波数に基づいている場合(つまり、仮定された事象の分布を時間が経つと無視するもの)、テクニックコールn-grammingを見たいと思うでしょう。ここでは難解なことを避けようとしていますが、nは固定長ではないn-gramを使いたいとします。これはNLPで一般的に使用されている技法であり、最も一般的な部分文字列の問題に精通している場合は、それをどうやって行うのかについて考えなければなりません。

+0

私はこの問題についてもう少し詳しく述べました。私はここでn-grammingが私たちを助けることができるのか分かりません。それにもかかわらず、私たちに提案できる他のアイデアはありますか? – rreyes1979

+0

さて、あなたがしたいことは、回帰モデルを構築することです。私は実際に回帰の人ではありませんが、あなたがWEKAのようなフレームワークを使用しているならば、十分簡単です。実際、これに関する記事があります:http://www.ibm.com/developerworks/opensource/library/os-weka1/index.html基本的には、データを書式設定し、WEKAに入力し、訓練した回帰モデルを保持し、そのモデルを使用して予測を行います。 –

-1

テキスト処理用のオープンソースインフラストラクチャであるGATE(テキストエンジニアリングの一般アーキテクチャ)を使用すると、IDE(ゲートデベロッパー)を使用して、他の包括的なプラグインセットを使用してテキスト処理コンポーネントを構築できます。あなたのコード上にjarファイルをプロジェクトに埋め込む必要があります。 このツールにはJAPE(Java Annotation Patterns Engine)という言語があり、ドキュメント上のアノテーションの正規表現を認識できます(ゲートアナライザを使用してドキュメントに注釈を付けることも、独自のアナライザを開発することもできます)。

0

あなたは2つの非常に異なることを行うために探している: 1)テキスト分類(トピック) 2)テキスト分類のための今後の課題/ボリューム

1)を予測、標準NLPライブラリのいずれかがOK- GATEあります、OpenNLP、LingPipeなど。個人的には、NLTKを使うか、私自身の話題分類器を書いています。大きなJavaライブラリは扱いにくく、ユーザーには不愉快です。軽量なものが簡単にできます。

分類されたデータを使って分類器を訓練する必要があります。最も重要なことは、いつものようにデータ品質です。あなたが見たいと思うデータのトレーニングデータはどのように代表的なものですか?あなたの特徴(nグラム、単語nグラムなど)はどれくらい良いですか?

2)予測には、使用できる統計モデルがいくつでもあります。個人的には確率的モデルのために行くつもりですが、それはあまりにも多くの時間をかけてそれらを勉強したからです。

2

あなたは私のオープンソースデータマイニングフレームワークチェックすることができ:http://www.philippe-fournier-viger.com/spmf/(SPMF)

それは、130の以上のアルゴリズムを提供します。それらのうちのいくつかは、一連のシーケンスで順次パターンと順次ルールを検出するなどの時間関連のデータマイニングタスクを実行するように設計されています。

あなたのニーズに合っているかどうかわかりません。しかし、あなたはそれをチェックアウトすることができます。

関連する問題