data-analysis

0熱

1答えて

私はDataFrame dffを取得しました。その形状は5アイテムと4日間の略です。私はEWM ewmmを作成し、EW移動平均を得ました。相関と共分散については、5×5の形状の行列が予想通りですが、結果は5×4×4の形になります。どうすればいいですか？ In[59]: dff Out[59]: 0 1 2 3 0 1 2 3 4 1 4 3 2 1 2 3 1 4 1 3

0熱

1答えて

Apache sparkまたは大きなデータツールを使用してプライマリキーに基づいて複数のテーブルを分割する

csvファイルに75のeコマース顧客アカウントデータのデータがあります。また、別のファイルにトランザクションレコードがあります。ここで、口座番号は主キーです。すべてのアカウントの平均トランザクション数は500です。今、私はこのデータを処理し、プロモーションオファーを提供することについて何らかの決定をしたいと思います。データ量が膨大なので、私はSparkSQLに行くことにしました。しかし、この

0熱

1答えて

データ解析のためのBluemix IOTのJsonデータ

Bluemix Watson IOTのjsonでBosch XDK 110のセンサーデータを取得する手順について、ステップバイステップの手順に従ってきました。さて、問題は、通常のjsonファイルのようにセンサのjsonデータを取得し、データ解析に使用することです。事前にアドバイスをいただきありがとうございます。ダニエル

-8熱

2答えて

要約データからヒストグラムを作成するR

Rの集計データからヒストグラムを作成するにはどうすればよいですか？私はこれを試みた： dataset <- c(4,17,12,6) hist(dataset) はしかし、これは私が希望 "0-19"、 "60〜99" ブレイクなどせずにデータを示しました。正しい区切りと名前でこのヒストグラムを作成する方法を知っている。ありがとう。

0熱

1答えて

ディシジョンツリーにあるように欠損値をそのまま扱う

ある変数（カテゴリ変数と数値変数）に欠損値があるデータセットがあります。例として、私は2つのカテゴリ、 "地域（今日）"と "地域（1日）"に分けられた数値を持つ変数 "エリア"を持っています。データ列が「新しいコーナー」に分類されている場合、「エリア（-1日）」に値はありません。したがって、削除や削除などの通常の欠損値処理はここでは機能しません。変数がもともと数値であるカテゴリとして、 "are

0熱

1答えて

二次条件と線形＆二次関数の同時使用

データ解析ラボでは、データセットから予測するための最良のモデルを作成する必要があります。私の理解から、対話項（二次項）を予測項として線形項と共に含む回帰モデルは、線形項のみを使用する対応するモデルよりも一般的です。リニア用語を使用するのは、両方を使うよりも優れていますか？私の印象は、個々の用語があまり関連していない場合、関連する用語を追加するとデータが乱雑になります。これは本当ですか？私はそ

0熱

1答えて

Scipyのcut_tree（）は、要求された数のクラスタを返さず、scipyとfastclusterで得られたリンケージ行列は一致しません

scipy.cluster.hierarchyモジュール関数に関連してfastclusterパッケージを使用して凝集クラスタークラスタリング（AHC） Python 3にあり、私はcut_tree()機能の困惑している動作を見つけました。私は問題なしでデータをクラスタ化し、を使用してmethod=wardを使用してZを取得します。次に、一定の数のクラスター（例えば、33）を得るために樹状図ツリー

0熱

1答えて

値の交互のグループに対するPysparkの自動インクリメント

Pkeparkを使用してSpark DataFrameで新しい列を作成しようとしています。これは、ブール値が交互になるグループに基づいて自動インクリメント（またはID）を表します。 df.show() +-----+------------+-------------+ |id |par_id |is_on | +-----+------------+-------------+ |4

0熱

1答えて

別の属性を最大化するための適切な属性を見つける

私はいくつかの属性/プロパティが固定されたモデルを持っています（約15の独立した属性）。同じモデルには、私にとって最も興味深い別の属性があります。私はその属性の特定の価値を最大にしたい。自分のデータに基づいて、固定属性値が最も興味深い属性にどのような影響を与えるのかを知りたいと思います。私はこれが統計上の問題だと思いますが、わかりません。実際の生活の例は、銀行支店、郵便番号、雇用、給与、クレ

0熱

1答えて

2つの異なる車の2つの地理座標xとyが同じ道路にあるかどうかを調べる

私のデータはvehicle_ID、xとyの座標（場所）、車両の速度、走行時間で構成されています。そして、どの車が同じ道路を利用しているのか知りたいですか？これは、ID 1と1台の車両と私のデータのサンプルですが、私はを分析するために、700000の車両IDを持っているので、基本的に私たちは別の道であるかを把握することができますし、どのように我々はseprateできる方法についての洞察を必要とし