scikit-learn

5熱

1答えて

現在、テキストを分類しようとしています。私のデータセットが大きすぎて、hereと示唆されているように、私は疎な行列を使う必要があります。私の質問は今、スパース行列に要素を追加する正しい方法は何ですか？たとえば、私が入力した行列Xがあるとしましょう。 X = np.random.randint(2, size=(6, 100)) 今、この行列Xはndarray（またはそのような何か）のndarr

8熱

1答えて

Enthought Canopyディストリビューションに含まれるscikit-learnのアップグレードバージョン

私はEPD 7.3.1をインストールしました（最近はEnthought Canopyと呼ばれています）。これはscikit-learn v 0.11に付属しています。私はUbuntu 12.04を実行しています。 v 0.12のscikit-learnをインストールする必要があります。、doc saysクローンリポジトリをscikit-学ぶあなたのPYTHONPATHにscikit-学ぶディレク

5熱

1答えて

Naive Bayes（Python、scikit）のスパース行列/オンライン学習の使用

6,000,000を超えるエントリと150kの各エントリを持つデータセットでNaive Bayesを実行しようとしています。私は、次のリンクからコードを実装しようとしました： Implementing Bag-of-Words Naive-Bayes classifier in NLTK 問題は、私はそれがパラメータだとしてdok_matrixで列車メソッドを実行しようとすると、それがiterke

15熱

2答えて

非整数クラスラベルScikit-Learn

scikit-learnのクイックSVM質問。あなたはSVMを訓練するとき、それは from sklearn import svm s = svm.SVC() s.fit(training_data, labels) のようなものだ非数値型のリストであることをlabelsための方法はありますか？例えば、 'cat'や 'dog'を1と2にエンコードする何らかの外部ルックアップテーブルを持た

10熱

1答えて

predict_probaまたはdecision_functionを推定値 "confidence"として使用

私は、scikit-learnで推定値を訓練するモデルとしてLogisticRegressionを使用しています。私が使用している機能は（主に）カテゴリです。ラベルも同様です。したがって、DictVectorizerとLabelEncoderをそれぞれ使用して、値を適切にエンコードします。トレーニングパートはかなり簡単ですが、テストパートに問題があります。簡単なことは、訓練されたモデルの「予測」

8熱

1答えて

scikit-learn SVMのデータのスケーリング

libsvmはScikit-Learn（SVCクラシファイアのlibSVMに基づいている）でデータをスケーリングするためのツールを提供していますが、データのスケールを変更する方法はありません。基本的には、4つの機能を使用したいと思います。そのうちの3つの範囲は0から1までで、最後のものは「大きな」可変数です。（私のデータを自動的にスケールするeasy.pyスクリプトを使って）第4の機能をlib

15熱

2答えて

joblibとpickleの使い方の違いは何ですか？

背景：私はちょうどscikit-learnを使い始めていますが、joblib, versus pickleについてはページの下部にあります。ビッグデータに、より効率的である漬物のJOBLIBの交換（joblib.dump & joblib.load）を、使用することがより面白いかもしれませんが、可能なディスクへの唯一のピクルスはなく、文字列へ私はピックルの Common use-cases f

5熱

1答えて

nltk、マルチクラスのケースでscikit-learnクラシファイアを使用する

テキストドキュメントの分類はsimple task with scikit-learnですが、NLTKでそれをきれいにサポートしていません。また、苦労してthisのようなサンプルがあります。私はNLTKで前処理してsckit-learnで分類し、NLTKでSklearnClassifierを見つけましたが、少し問題があります。 scikit-学ぶすべてのものにはOKです： from sklear

20熱

4答えて

Javaからscikit-learnクラシファイアを呼び出すにはどうすればよいですか？

私はPythonのscikit-learnを使って訓練した分類子を持っています。 Javaプログラムから分類器を使用するにはどうすればよいですか？ Jythonを使うことはできますか？ Pythonでクラシファイアを保存してJavaでロードする方法はありますか？それを使用する他の方法がありますか？

11熱

4答えて

LASSOはsklearn（python）とmatlabの統計パッケージが異なるのはなぜですか？

私はLaasoCVからsklearnまで、クロスバリデーションによって最良のモデルを選択しています。私はsklearnまたはmatlab統計ツールボックスを使用すると、クロスバリデーションが異なる結果になることがわかりました。私は、私は、その後、私はmatlabデータを保存し、sklearnからlaaso_pathと数字を複製しようとしたmatlabを使用して、こののような数字を取得するために