scikit-learn

    16

    2答えて

    私はpythonでsklearnのロジスティック回帰の分類問題を解決しています。 私の問題は一般的なものです。 2つのクラス/結果(正/負または1/0)のデータセットがありますが、このセットは非常に不均衡です。 〜5%のポジティブと〜95%のネガティブがあります。 このような不均衡な問題に対処する方法はいくつかありますが、sklearnパッケージを使用して正しく実装する方法についての良い説明は見つ

    14

    2答えて

    でのk = 3より小さくすることはできませんこれは私のターゲット(y)は次のとおりです。 target = [7,1,2,2,3,5,4, 1,3,1,4,4,6,6, 7,5,7,8,8,8,5, 3,3,6,2,7,7,1, 10,3,7,10,4,10, 2,2,2,7] 私にはわかりませんなぜ実行していながら: ...#は、2

    12

    1答えて

    auc_scoreをスコア関数として使用する場合、GridSearchCVはpredictまたはpredict_probaを使用しますか? 予測関数は、予測されるクラスラベルを生成します。予測クラスラベルは、常に三角形のROC曲線になります。予測されたクラス確率を使用して、より湾曲したROC曲線が得られる。後者は、私が知る限り、より正確です。そうであれば、「カーブした」ROCカーブの下の領域は、お

    15

    2答えて

    後、私はテキストの分類器を構築する必要があり、そして今私は次のように、選択する機能をTfidfVectorizerとSelectKBestを使用しています: vectorizer = TfidfVectorizer(sublinear_tf = True, max_df = 0.5, stop_words = 'english',charset_error='strict') X_train_

    7

    1答えて

    私はScikit-Learn(sklearn)を使って1対全ロジスティック回帰分類子で遊んでいます。私は大規模なデータセットを持っています。トレーニングが進むにつれて学習曲線を勉強したいと思っています。 バッチ勾配降下を使用して、分類器を500サンプルのバッチで訓練したいと考えています。これを行うためにsklearnを使用する方法がありますか?またはsklearnを放棄して "自分自身をロールバッ

    31

    2答えて

    私はsklearn.svm.svcをscikit-learnから使用して、バイナリ分類を行います。確率予測を得るために、そのpredict_proba()関数を使用しています。 predict_proba()が内部的に確率を計算する方法を教えてもらえますか?

    5

    1答えて

    次のように私は、マルチラベルデータを超えるグリッドサーチをやってる: #imports from sklearn.svm import SVC as classifier from sklearn.pipeline import Pipeline from sklearn.decomposition import RandomizedPCA from sklearn.cross_valid

    5

    3答えて

    csvからトレーニングとテストのデータを読み込み、scikit/sklearnでランダムフォレスト回帰を実行してから、テストファイルの出力を予測しようとしています。 TrainLoanData.csvファイルには5つの列があります。最初の列は出力で、次の4列はフィーチャです。 TestLoanData.csvには4つの列があります。私は、コードを実行すると 、私はエラーを取得する:これは pred

    5

    1答えて

    私はscikit-learnから始まり、一連のドキュメントをクラスタリングと分類を適用できるフォーマットに変換しようとしています。私はベクトル化の方法と、ファイルをロードしてボキャブラリを索引するtfidf変換に関する詳細を見てきました。 はしかし、私はベクトル化機能によって生成された各文書ベクトルに機能を追加することができますどのように など、著者、担当した部門、トピックのリストとして、各文書の

    6

    1答えて

    私はscikit-learnでグリッド検索の代わりにランダム検索アルゴリズムを使用したいと思います。しかし、私はドキュメントでGridSearchCV見積もりを見つけることができます。 scikit-learnでグリッド検索の代わりにランダム検索を使用することは可能ですか?