data-science

-1熱

3答えて

私は比較的新しいPythonのデータサイエンスで、データサイエンスに関するいくつかの競争を模索していましたが、「トレーニングデータセット」と「テストデータセット」と混同しています。いくつかのプロジェクトは両方を統合し、別のプロジェクトは分離しています。 2つのデータセットの背後にある根拠は何ですか？どんな助言も役に立ちます。

0熱

1答えて

モデルパフォーマンスプロット：回帰モデルのMAEプロット[ROCプロットの回帰式]

私はレンタルを決定するための回帰モデルを持っています。予測は0/1バイナリの結果ではなく、時間単位のレンタル数です。パフォーマンスメトリックの場合、私は主にMean Absolute Error（MAE）を見ています。私の質問は、RにMAEをグラフィカルにプロットする方法はありますか？私は基本的にMAE版のROCRパッケージを探しています。私のデータセットは、モデルのパフォーマンスが将来の予

0熱

1答えて

R - 従業員のレポート構造

背景：Rを使用していくつかのパッケージを使用して、チケットシステムからJSONデータを取得しています。私はすべてのユーザーを引き出し、レポート構造を構築したいと考えています。従業員とそのマネージャを含むデータセットがあります。列の名前は "Employee"と "Manager"です。私は、ルートになる報告構造のツリーを構築しようとしています。私たちは、IT組織ではありますが、私はすべての従業員

1熱

1答えて

私のファイルリスト内のNAsを無視できません

私のディレクトリ内にファイルリスト（1から332まで）があります。 file1はid1に対応し、file2はid2に対応するなどと続きます。各ファイルには4つの列が含まれています.NAsを無視して2番目の列の合計と長さを計算する必要があります（ "汚染物質"というラベルが付いています）。私はすべてを試しました：！is.na（ファイル）、na.rm = TRUE、省略...合計と長さを1：100

0熱

1答えて

フィーチャーの選択（Boruta）

私は信用リスクモデリングを行っており、データには多数のフィーチャーがあります。フィーチャー選択にborutaパッケージを使用しています。パッケージは計算コストが高すぎます。完全なトレーニングデータセットでは実行できません。私がしようとしているのは、トレーニングデータのサブセット（約20-30％と言いましょう）をとり、サブセット化されたデータでborutaパッケージを実行し、重要な機能を取得すること

-2熱

1答えて

統計モデルのR2が低く、シークレットの精度/精度が高い

私は現在データサイエンスコースに在籍しており、私のプロジェクトの1つは従業員の失業を予測するモデルを作成することです。私は使用しているモックデータセットを持っています。私はすでにXとYを設定しています。私は4つのモデルを実行しました。最初は、統計モデルでロジスティック回帰を実行していました。その出力はPseudo Rsquared 0.142で、かなり低いです。しかし、私はscikit le

0熱

1答えて

R Shinyのファイルを次のタブを使って表示する

私は、次のアクションボタンでRを使用して表示したい画像のセットを持っています。次のボタンを使用してそれらを次々とどのように表示しますか？コードを実行するたびに、最初のイメージを表示することができますが、次のボタンをクリックすると、次のエラーが表示されます。警告：$のエラー： 'closure'タイプのオブジェクトはサブセット化できません。ここに私がこれまで持っていたコードがあります。 librar

0熱

1答えて

Spark ML TrainValidationSplit（定義済み列車と検証セットあり）

Spark MLクラスのTrainValidationSplitを使用すると、setTrainRatioを設定できます。しかし、列車とテストセットを手動で作成したいと思います。 TrainValidationSplitで列車とテストセットを指定する方法はありますか？私はScala ML APIを使用しています。ありがとうございます！

0熱

1答えて

は私がAddExpressionフィルタを使用して追加の属性を持っている、そして今私は、すべての負の値がゼロに設定されているように、その値を変更したいWEKA

ゼロにすべての負の属性値を設定します。 MathExpression -E "ifelse(A > 0, A, 0)" -V -R 17 17は、WEKA前処理/属性で見られる属性のインデックスです：私はこのようなMathExpressionフィルタを使用してみました。しかし、それを適用した後も、私の属性の最小値は、期待どおり0ではなく-5であることがわかります。私は間違って何をしていますか？

0熱

1答えて

他の2つの変数の平均をとって変数を生成する方法は？

Stataに2つの他の列変数の平均である変数を生成しようとしています。これどうやってするの？これまでのところ、私ははVAR =平均（VAR1のVAR2）を生成していますが、私は平均がコマンドではありませんので、これは、正しくないことを知っています。ありがとうございます！