data-science

    -1

    3答えて

    私は比較的新しいPythonのデータサイエンスで、データサイエンスに関するいくつかの競争を模索していましたが、「トレーニングデータセット」と「テストデータセット」と混同しています。いくつかのプロジェクトは両方を統合し、別のプロジェクトは分離しています。 2つのデータセットの背後にある根拠は何ですか?どんな助言も役に立ちます。

    0

    1答えて

    私はレンタルを決定するための回帰モデルを持っています。予測は0/1バイナリの結果ではなく、時間単位のレンタル数です。 パフォーマンスメトリックの場合、私は主にMean Absolute Error(MAE)を見ています。 私の質問は、RにMAEをグラフィカルにプロットする方法はありますか?私は基本的にMAE版のROCRパッケージを探しています。 私のデータセットは、モデルのパフォーマンスが将来の予

    0

    1答えて

    背景:Rを使用していくつかのパッケージを使用して、チケットシステムからJSONデータを取得しています。私はすべてのユーザーを引き出し、レポート構造を構築したいと考えています。 従業員とそのマネージャを含むデータセットがあります。列の名前は "Employee"と "Manager"です。私は、ルートになる報告構造のツリーを構築しようとしています。私たちは、IT組織ではありますが、私はすべての従業員

    1

    1答えて

    私のディレクトリ内にファイルリスト(1から332まで)があります。 file1はid1に対応し、file2はid2に対応するなどと続きます。 各ファイルには4つの列が含まれています.NAsを無視して2番目の列の合計と長さを計算する必要があります( "汚染物質"というラベルが付いています)。 私はすべてを試しました:!is.na(ファイル)、na.rm = TRUE、省略...合計と長さを1:100

    0

    1答えて

    私は信用リスクモデリングを行っており、データには多数のフィーチャーがあります。フィーチャー選択にborutaパッケージを使用しています。パッケージは計算コストが高すぎます。完全なトレーニングデータセットでは実行できません。私がしようとしているのは、トレーニングデータのサブセット(約20-30%と言いましょう)をとり、サブセット化されたデータでborutaパッケージを実行し、重要な機能を取得すること

    -2

    1答えて

    私は現在データサイエンスコースに在籍しており、私のプロジェクトの1つは従業員の失業を予測するモデルを作成することです。 私は使用しているモックデータセットを持っています。私はすでにXとYを設定しています。 私は4つのモデルを実行しました。最初は、統計モデルでロジスティック回帰を実行していました。その出力はPseudo Rsquared 0.142で、かなり低いです。 しかし、私はscikit le

    0

    1答えて

    私は、次のアクションボタンでRを使用して表示したい画像のセットを持っています。次のボタンを使用してそれらを次々とどのように表示しますか?コードを実行するたびに、最初のイメージを表示することができますが、次のボタンをクリックすると、次のエラーが表示されます。警告:$のエラー: 'closure'タイプのオブジェクトはサブセット化できません。ここに私がこれまで持っていたコードがあります。 librar

    0

    1答えて

    Spark MLクラスのTrainValidationSplitを使用すると、setTrainRatioを設定できます。しかし、列車とテストセットを手動で作成したいと思います。 TrainValidationSplitで列車とテストセットを指定する方法はありますか? 私はScala ML APIを使用しています。 ありがとうございます!

    0

    1答えて

    ゼロにすべての負の属性値を設定します。 MathExpression -E "ifelse(A > 0, A, 0)" -V -R 17 17は、WEKA前処理/属性で見られる属性のインデックスです:私はこのようなMathExpressionフィルタを使用してみました。しかし、それを適用した後も、私の属性の最小値は、期待どおり0ではなく-5であることがわかります。私は間違って何をしていますか?

    0

    1答えて

    Stataに2つの他の列変数の平均である変数を生成しようとしています。これどうやってするの?これまでのところ、私は はVAR =平均(VAR1のVAR2) を生成していますが、私は平均がコマンドではありませんので、これは、正しくないことを知っています。 ありがとうございます!