scikit-learn

    5

    1答えて

    現在、テキストを分類しようとしています。私のデータセットが大きすぎて、hereと示唆されているように、私は疎な行列を使う必要があります。私の質問は今、スパース行列に要素を追加する正しい方法は何ですか?たとえば、私が入力した行列Xがあるとしましょう。 X = np.random.randint(2, size=(6, 100)) 今、この行列Xはndarray(またはそのような何か)のndarr

    8

    1答えて

    私はEPD 7.3.1をインストールしました(最近はEnthought Canopyと呼ばれています)。これはscikit-learn v 0.11に付属しています。私はUbuntu 12.04を実行しています。 v 0.12のscikit-learnをインストールする必要があります。 、doc saysクローンリポジトリをscikit-学ぶあなたのPYTHONPATHにscikit-学ぶディレク

    5

    1答えて

    6,000,000を超えるエントリと150kの各エントリを持つデータセットでNaive Bayesを実行しようとしています。私は、次のリンクからコードを実装しようとしました: Implementing Bag-of-Words Naive-Bayes classifier in NLTK 問題は、私はそれがパラメータだとしてdok_matrixで列車メソッドを実行しようとすると、それがiterke

    15

    2答えて

    scikit-learnのクイックSVM質問。あなたはSVMを訓練するとき、それは from sklearn import svm s = svm.SVC() s.fit(training_data, labels) のようなものだ非数値型のリストであることをlabelsための方法はありますか?例えば、 'cat'や 'dog'を1と2にエンコードする何らかの外部ルックアップテーブルを持た

    10

    1答えて

    私は、scikit-learnで推定値を訓練するモデルとしてLogisticRegressionを使用しています。私が使用している機能は(主に)カテゴリです。ラベルも同様です。したがって、DictVectorizerとLabelEncoderをそれぞれ使用して、値を適切にエンコードします。 トレーニングパートはかなり簡単ですが、テストパートに問題があります。簡単なことは、訓練されたモデルの「予測」

    8

    1答えて

    libsvmはScikit-Learn(SVCクラシファイアのlibSVMに基づいている)でデータをスケーリングするためのツールを提供していますが、データのスケールを変更する方法はありません。 基本的には、4つの機能を使用したいと思います。そのうちの3つの範囲は0から1までで、最後のものは「大きな」可変数です。 (私のデータを自動的にスケールするeasy.pyスクリプトを使って)第4の機能をlib

    15

    2答えて

    背景:私はちょうどscikit-learnを使い始めていますが、joblib, versus pickleについてはページの下部にあります。 ビッグデータに、より効率的である漬物のJOBLIBの交換(joblib.dump & joblib.load)を、使用することがより面白いかもしれませんが、可能なディスクへの唯一のピクルスはなく、文字列へ 私はピックルの Common use-cases f

    5

    1答えて

    テキストドキュメントの分類はsimple task with scikit-learnですが、NLTKでそれをきれいにサポートしていません。また、苦労してthisのようなサンプルがあります。私はNLTKで前処理してsckit-learnで分類し、NLTKでSklearnClassifierを見つけましたが、少し問題があります。 scikit-学ぶすべてのものに はOKです: from sklear

    20

    4答えて

    私はPythonのscikit-learnを使って訓練した分類子を持っています。 Javaプログラムから分類器を使用するにはどうすればよいですか? Jythonを使うことはできますか? Pythonでクラシファイアを保存してJavaでロードする方法はありますか?それを使用する他の方法がありますか?

    11

    4答えて

    私はLaasoCVからsklearnまで、クロスバリデーションによって最良のモデルを選択しています。私はsklearnまたはmatlab統計ツールボックスを使用すると、クロスバリデーションが異なる結果になることがわかりました。 私は、私は、その後、私はmatlabデータを保存し、sklearnからlaaso_pathと数字を複製しようとしたmatlabを使用して、この のような数字を取得するために