data-science

    1

    1答えて

    私は、PythonとSciKitLearnスタックを使用してブラジルの都市間の気候データを一致させるためのスクリプトを作成しました。現時点では、私はMongoDBを使って60M +のエントリを持つ気候コレクションを、Pandasはこれらのテーブルを照会して参加しています。 各ブラジルの都市の気候データを簡単なアルゴリズムで比較して、都市の各ペアの最終得点を生成します。 問題は、時間がかかりすぎると

    2

    2答えて

    は興味深いことに、私は両方のStackOverflowや他のサイトでこの程度異なった答えの多くを参照してください。私のトレーニングデータセットで作業している間 を、私は決定木モデルを使用して、特定の列の欠損値を帰属しました。だから私の質問です。転用のためのモデル(予測ではなく)を作成するのに、利用可能なすべてのデータ(Training & Test)を使用するのは公正でしょうか?また、テストセット

    0

    1答えて

    多項式回帰を使用するコードを以下に書きました。モデルには合うが、予測できない!! def polynomial_function(power=5, random_state=9): global X_train global y_train X_train = X_train[['item_1','item_2','item_3','item_4']] r

    1

    1答えて

    私は最近、疎な値の10k〜100kサンプル(cells)×20kの特徴(genes)であり、多くのメタデータを含む単一細胞RNAシーケンシングデータを扱っています。起源の組織(「脳」対「肝臓」)。メタデータは〜10〜100列で、私はpandas.DataFrameとして保存します。今、私はxarray.DataSetsを、メタデータをififingして座標として追加することで作成しています。私はノ

    0

    1答えて

    私は$ 100から$ 1000の支払いを含む支払いの合計列名を持つデータセットを持っていますが、$ 100.05、$ 102または104.05の支払いがあります。たとえば、$ 97以下の行を作成する場合は、100ドル未満または100〜200未満のカテゴリを持つ列を作成します。 このようなコードを作成しました。 が、出力はすべての行が800と900の間に言って、次のとおりです。 この人々にサポートし

    -1

    1答えて

    私は50の予測変数と1つの目標変数を持っています。私のすべての予測変数とターゲット変数は、2進数の0と1だけです。私はRを使って分析を行っています。 私は4つのアルゴリズムを実装します。 1. RF 2.ログインレッグ 3. SVM 4. LDA 私は、次の質問がある: 私は要因にそれらのすべてを変換します。変数を事前に処理してから、他のアルゴリズムに渡す必要があります。 モデルをトレーニングする

    0

    2答えて

    私はKaggleから得たデータセットの意思決定ツリーを作ろうとしています。 実際のデータセットを扱う経験はありませんので、データのクリーニング、統合、スケーリング(主にスケーリング)にどう対処するかはわかりません。 たとえば、実数を持つフィーチャがあるとします。だから私は、(デシジョンツリーを作るための)グループの特定の数にスケーリングすることによって、そのような機能をカテゴリデータのようなものに

    1

    1答えて

    私は、このコードを実行すると、それは としてエラーを生成名DFとコードは - df = pd.DataFrame({'string': list('abcdef'), 'int64': list(range(1,7)), 'uint8': np.arrange(3,9).astype(u1), 'bool1': [True,False,Fals

    -2

    2答えて

    画像からすべての情報を引き出すことはできますか? を取ら -GPSデータ - タグ -time私はいくつかのデータ工学をやろうとしていると、ちょうどすべての情報は、私がイメージの外に引き出すことができるか疑問に思って?誰でもこれについてのアイデアはありますか?