statistics

0熱

1答えて

相関を使用してフィーチャ選択を使用して重要/関連性の高い変数を選択することの違いは何ですか？フィーチャ選択を研究するとき、ピアソン相関を含む統計的テストを使用することがわかります。私たちのグループは、大学のプロジェクトの一部であり、データマイニングを行う際に重要な変数を特定したいと考えています。パートナーはR Studioを使用して相関分析を行い、Sci-kit Learnを使用して再帰的な機能

1熱

1答えて

stats.chisquareが誤っp_valueの= 0

以下に示すように、私は、このような予想されると、各カテゴリ内の周波数を有する返します「Tはそう思う： stats.chisquare(city_ans.answered, city_ans.sent) # Power_divergenceResult(statistic=893005.32003277098, pvalue=0.0) フィルタリングがあまり変化しない10未満の値： stats

0熱

1答えて

なぜscipyの統計情報に中央値がないのですか？

それは素朴な質問かもしれませんが、私は妥当な答えを見つけることができませんでした。なぜ中央値はstats.describeの返還に含まれていないのですか？尖度さえも含まれますが、中央値はなぜですか？おかげ

3熱

1答えて

R：大規模なデータフレームの単純なランダムサンプル

私は大規模（8GB）のデータセットを持っています。これは、既存のセットアップを使用してRに読み込むことはできません。データセットでfreadを使用しようとすると、すぐにRセッションがクラッシュし、基礎となるファイルからランダムな行を読み込もうとすると、以下の理由で不十分でした。（1）データセットの行の総数を知る良い方法がない。（2）私の方法は真の「ランダムサンプリング」ではありませんでした。失

-2熱

1答えて

シンプル確率

米国の上院議員5人が、100人の米国上院議員から無作為に選ばれています。は、選択された5人のうち少なくとも2人が同じ状態にある確率は何ですか？ 50の州があり、それぞれに2人の上院議員がいる。

2熱

1答えて

Matlab - カテゴリワイズのステップワイズGLM

私は85個の予測変数のテーブルを用意しています。そのうちのいくつかは数値、論理、序数、名義（ホット1符号化）です。彼らは、私が使用して段階的にGLMを実行している0から1の範囲にある単一finalScoreアウトカムVARを予測している。 % model2 = stepwiseglm(predictors, finalScore); 各予測のヘッダは、それがある4つの種類のいずれかを示し、場合、私

0熱

1答えて

カテゴリ＆連続予測子を使用したMatlab/R - 線形回帰 - 連続予測子の二乗はなぜですか？

私は、カテゴリプレディクタと0〜1の数値結果を使用して線形回帰を行っています。 On this page私はそれが名目上のものと並んでいるときに数値予測子を二乗することを提案しました（第3セクションのLinear Regression with Categorical Predictorを参照）。 mdl = fitlm(tbl,'MPG ~ Year + Weight^2') これは普遍的なルー

0熱

1答えて

複数のグループ比較：anova post hoc testまたはpairwise.t.test？

完全に理解できなかったという根本的な疑問があります。私は5つの独立したグループを持ち、これらのグループ手段のどれが異なるかを知りたがっています。したがって、私は2つの選択肢があります： 1.片方向アノバを行い、ホックテスト（例：Tukey） 2. pairwise.t.testを使用して複数のtテストを行い、次にp値を調整しますどちらのアプローチをとるべきですか？これら2つのアプローチの違いは何

2熱

1答えて

MatLabの負の二項分布のモードを計算する方法

統計プロジェクトを完成させています。生データセットに沿ってさまざまな分布の基本的な分析値を比較する必要があります。私は、生データとノーマルディストリビューションのモードを計算することができました。 MatLabのモード関数は、複素数を入力としてのみ許可し、負の二項分布はコード内の分布として設定します。で NegBinomMode = mode(NegBinom); これは、結果：プロセスのデー

0熱

1答えて

フォンミーゼス分布のスカラー量の推定 - 不一致の回答

私はフォンミーゼス分布のパラメータを手で計算しており、シピフォンミーゼスフィット関数と比較したいと考えました。 fit関数の結果が矛盾しています。私の2つのデータセットは、D1 = [0.8pi、0.9pi]およびD2 =である[0.2pi、0.1pi] マイPythonの機能は以下である： def calc(data): '''Takes a 1-D dataset and us