2011-12-24 9 views
6

私は現在、分類モデルの監督訓練を含むMLタスクを試しています。 これまでのところ、私は5Mのトレーニング例と交差検証の5Mの例があります。それぞれの例では、現時点では46個の機能がありますが、近い将来に10個以上を生成したいので、改善の余地があります。機械学習タスク:どのツールを使用するのですか?

私の問題は次のとおりです。この問題にはどのツールを使用しますか?ランダムフォレストやSVMを使いたいのですが、後者は私の場合は遅すぎるかもしれません。私はMahoutを考慮しましたが、コマンドラインスクリプトを使いこなすことで一定の構成を必要としているように見えます。私はむしろいくつかの(よく文書化された)ライブラリに対して直接コーディングするか、またはGUIで私のモデルを定義したいと思います。

また、私はWindows上で実行されるもの(cygwinなどのものはありません)を探していることを指定する必要があります。あなたは時間が来るとき、と想像することができます

、コードがAmazon EC2Cluster Compute Eight Extra Large Instance上で実行されるので、RAMやマルチコアCPUの普及を作る何でも大歓迎です。

なく、少なくとも最後に、私は私のデータセットが密であることを指定しなければならないが(ミッシング値はありませんそれに/すべての列は、各ベクトルの値を持つ)

+1

利用可能なツールが多数あります(初めは、KDnuggetsのソフトウェアリスト:http://www.kdnuggets.com/software/index.htmlを参照してください)。あなたの問題の説明はそれらのいくつかを削除しますが、それでも充分かもしれない数字が残っています。まさに「.NETでうまくいく」とはどういう意味なのか分かりませんが、価値のあるツールであれば、.NETコードに簡単に変換できるモデルのレポートやソースコードを提供する必要があります。 – Predictor

+0

リンクをありがとう、私はこれを書いたとすぐにそれをチェックアウトします。 .NETでうまくいくということは、ジョブを開始するプログラマブルなインタフェースを持つもの、または.NETライブラリ(または使用可能なラッパー)でさえも、そうでないものよりも好ましいことです。 – em70

答えて

2

私は、この規模のための確率的勾配降下を見てお勧めします問題。見るべき良いツールはVowpalWabbitです。そのサイズでは、おそらく合理的な仕様でデスクトップ上で実験を実行できます。あなたのための唯一の欠点は、私はそれがWindows中心ではないと思うが、私はcygwin上で実行する必要がありますチェックしていないが。

EDIT:開発者は、WindowsでVowpalWabbitを実行することに大きな関心を寄せています。 2013年3月現在、VowpalWabbit(バージョン7.2)はそのままWindows上で動作します。 Windowsにまだ実装されていない高度な/オプションの機能がいくつかありますが、そのうちの1つはVowpalWabbitをデーモンとして実行していますが、短期間に処理されるようです。

+1

なぜこのツールですか?何十人もの候補者がいる:これは何が残りの部分の上に浮上するのか? – Predictor

+1

@Predictor、それは私が使ってきたものです。私が経験したものと良い結果を得たものです。また、個人的には、彼が必要とする技術的なツール(確率的な勾配降下)について言及するのは初めてです。また、最初に彼はラップトップでその規模を処理でき、EC2クラスターは必要ないと述べました。 – carlosdc

+0

私はこの答えが〜1.5歳だと思う。 vowpal wabbitはWindowsに移植され、バージョン7.xはWindows上でうまく構築されるべきではありません。 – arielf

3

EC2のRで同様の行/機能カウントデータセットを定期的に実行します(16コア/ 60 GBインスタンスタイプは、複数のCPUを利用できる方法を使用している場合に特に便利です)。パッケージcaret。)あなたが言及したように、すべての学習方法(SVMなど)がそのようなデータセットでうまくいくわけではありません。

クイックプロトタイピング/パフォーマンスベンチマークのために10%のサンプルを使用することを検討してから、完全なデータセットに切り替えることを検討することをお勧めします。

あなたは非常に高いパフォーマンスをしたい場合は、Vowpal Wabbitがより良いフィット感である(それはだけなので何のgbmRandom Forestを一般化線形学習者をサポートしていません。)また、VWは非常に窓フレンドリーではありません。