kaggle

-1熱

1答えて

私はPythonで新しく、データフレームから特定の種類の文字列データを抽出したいと思います。ここに私のデータフレームである：私は（A、B、C、D ...のような）キャビン列の最初の文字を抽出してCabinCapitalという名前の新しい機能列として、それを追加したいですデータフレーム内にある。どうすればいい？たとえば、行460に文字「E」を含むCabinCapitalフィーチャが必要です（キャビ

0熱

2答えて

意思決定ツリー作成時のデータ処理方法

私はKaggleから得たデータセットの意思決定ツリーを作ろうとしています。実際のデータセットを扱う経験はありませんので、データのクリーニング、統合、スケーリング（主にスケーリング）にどう対処するかはわかりません。たとえば、実数を持つフィーチャがあるとします。だから私は、（デシジョンツリーを作るための）グループの特定の数にスケーリングすることによって、そのような機能をカテゴリデータのようなものに

1熱

2答えて

Python：[Errno 2]このようなファイルやディレクトリはありません：... site-packages/testpath-0.3.1.dist-info/top_level.txt

kaggle-cliをインストールした後、コマンドラインで実行しました。 kg config ただし、このエラーが発生しました。 [Errno 2] No such file or directory: '/root/.pyenv/versions/3.6.0/lib/python3.6/site-packages/testpath-0.3.1.dist-info/top_level.txt'

2熱

2答えて

テンソルでの正規化ジニ係数の計算方法

テンソルフローで正規化Gini Coefficientを計算しようとしていますが、そうすることができません。私はnumpyで実行された以下のPythonコードを持っていますが、私はtensorflowを使ってそれを実装したいと思います。アイデアがあれば、助けてください。 tensorflowバージョン（ここで def gini(actual, pred, cmpcol = 0, sortcol =

1熱

1答えて

KaggleのCSVをパンダのデータフレームに変換する際の解析の問題

編集：これを見つけて下に回答しました。これは将来kaggleからcsvファイルを直接ダウンロードする他の初心者にとって役に立ちます。 wgetがCSVファイルをダウンロードするように表示されても、私は気づいていない、彼らは実際にジップです。私はパンダには新しく、一般的にこれらのデータセットで作業しています。私がインストールされていないとJupyter中で動作するように私自身のVMにいくつかのka

1熱

1答えて

Kaggle競争のROCスコアが間違っていますか？

私はKaggleの競技を研究しており、Logistic Regression分類器を使用して上位10人の競技者のアプローチをテストしました。競争にリンク：https://www.kaggle.com/c/detecting-insults-in-social-commentary/leaderboard 私はまだ私はあまりにも多くの変更を加えることなく分類をテストした分類問題にかなり新しいです。

1熱

1答えて

seaborn pointplotに注文方法

ここkaggleタイタニックの競争kernelからのコードがあります： grid = sns.FacetGrid(train_df, row='Embarked', size=2.2, aspect=1.6) grid.map(sns.pointplot, 'Pclass', 'Survived', 'Sex', palette='deep') grid.add_legend() それは間

1熱

1答えて

より良いPCA分解を行うためにデータセットを減らすことはよい習慣です

Kaggle（link）のクレジットカード詐欺データセットを処理しようとしているうちに、私はより良いモデルを得ることができました。トレーニングのためのデータセット。説明するだけで、データセットは31個の機能の284807個のレコードで構成されています。このデータセットにはわずか492件の詐欺があります（わずか0.17％）。私は、3つの最も重要なディメンションだけを表示できるように、完全なデータセ

0熱

1答えて

Titanic KaggleデータセットNaive BayesクラシファイアエラーRプログラミング

Kaggle - Titanicデータセット（ "train.csv"と "test.csv"の場合はURL- ）のナイーブベイズ分類子を訓練しようとしています。しかし、「出力」は本当に何が含まれていません library(e1071) train_d <- read.csv("train.csv", stringsAsFactors = TRUE) # columns chosen fo